Module d’Analyse Statistique :

Introduction générale

M1 Géomatique - M2 IGAST

Martin Cubaud

LASTIG-UGE-IGN/Géodata Paris

2025-2026

Introduction générale

Réferences

Analyse spatiale : définition

L'analyse spatiale étudie la répartition et l'organisation d'ensembles d'objets qui sont localisés.

L'objectif est de :

"déceler en quoi la localisation apporte un élément utile à la connaissances des objets étudiés et peut en expliquer les caractéristiques"

[Pumain, Saint-Julien 97]

Specifité de l'analyse spatiale

Analyse statistique :

Méthodes résumant et généralisant des observations

  • Les unités d'analyse sont des éléments indépendants en principe
  • On ne s'intéresse pas à leur localisation ni à leurs intéractions (spatiales)

Analyse spatiale statistique :

  • Les unités d’analyse sont localisables
  • On s’intéresse à leur propriétés y compris la localisation
  • On fait l’hypothèse que leur localisation peut influencer les valeurs observées

Données spatiales vs. non spatiales

Données spatiales :

Individus restreints spatialement (selection spatiale), ou variables de localisation géographique (e.g. Lieu de résidence, coordonnées) renseignées pour les individus

Quid des distances ? → modèle gravitaire, réseau etc.

Deux approches

Analyse géométrique :

Approche géométrique pour mieux décrire les données: analyse de forme, de réseaux, de proximité, méthodes de création de nouvelles entités à partir de la géométrie des objets.

Analyse de données :

Approche statistique permettant de faire émerger des relations (des groupes, des lois) pour aider l'étude de certains phénomènes.

Statistiques Inférentielles

vs

Statistiques Descriptives

Statistiques Inférentielles

A partir d’un échantillon , que peut-on attendre (=inférer) de la population ?

  • Modèles, estimateurs... : régression, estimation, extrapolation
  • e.g. sondages, recensement...

Statistiques Inférentielles : exemple

Penguins data were collected and made available by Dr. Kristen Gorman and the Palmer Station, Antarctica LTER, a member of the Long Term Ecological Research Network.

[https://github.com/allisonhorst/palmerpenguins]

Statistiques Descriptives

Décrire, résumer, synthétiser les propriétés d'une population à partir des variables qui décrivent ses individus.

  • Graphiques : nuages de points, histogramme...
  • Mesures (fréquences, distributions, moments) sur des variables
  • Liaisons statistiques entre variables : corrélation, covariance...
  • Structure interne des données : classification, ACP...

Attention aux groupes ! (paradoxe de Simpsons)

Paradoxe de Simpsons

Dans ce module

Nous ferons majoritairement de la statistique descriptive

(Même si, pour bien décrire, il faut parfois inférer).

Vocabulaire

Population

Ensemble d'individus

"données", "corpus", "échantillon", "data"

Très souvent tabulaires

Individu

Unité statistique élémentaire : personnes, logements...

→ "les lignes du tableau"

Variables

Caractéristiques, propriétés d'un individu, mesurées par des enquêtes, des observations...

→ "les colonnes du tableau"

Types de variables

Qualitatives : facteurs e.g. couleur, genre, CSP, type de pokemon... → notion de modalité

Quantitatives : nombres e.g. taille, masse, revenu, surface, points de vie... parfois exprimés avec des unités : m, kg, s

Discrètes et Continues

Variables quantitatives continues : $var \in \R $

Valeurs réelles, toutes les valeurs de l'intervalle de mesures peuvent exister

Variables quantitatives discrètes : $var \in \N $

Valeurs entières, pour des attributs dénombrables (comptage)

parfois utilisées pour encoder une variable qualitative à deux modalités e.g. présence (1), absence (0)

Variables qualitatives

Les valeurs sont prises dans un ensemble fini de valeurs possibles, défini par extension (i.e. on donne la liste des valeurs possibles)

→ notion de modalités

nominales (non ordonnées ex état civil) ou

ordinales (ordonnées ex échelle de Likert)

L'échelle d'Analyse

Spécificité de la statistique spatiale : à quelle échelle observer ?

Quel découpage, quelles unités spatiales ?

"Problème insoluble" : le MAUP (Modifiable Areal Unit Problem)

Unités spatiales

Mailles administratives :

agrégation/imbrication d’unités spatiales prédéfinies : comtés, départements, régions, pays...

e.g. Comprendre comment le taux de chômage d'un pays est distribué entre les régions pour guider les politiques économiques

Découpages :

identification d'unités spatiales ayant des catactéristiques semblables

e.g. IRIS, carroyage

échelle individuelle vs echelle agrégée

Désagrégation ou Ventilation :

→ Inférer des caractéristiques individuelles à partir de l'analyse de données agrégées (ni facile ni immédiat)

Agrégation :

→ Inférer des caractéristiques concernant les unités agrégés d'après les caractéristiques individuelles

le MAUP (Modifiable Areal Unit Problem)

Problème d'agrégation spatiale : les résultats d'une analyse statistique spatiale dépendent du choix d'agrégation

→ biais "systématique et insoluble"

Exemples tirés du rapport ESPON :

https://www.espon.eu/sites/default/files/attachments/espon343_maup_final_version2_nov_2006.pdf

MAUP exemple 1

MAUP exemple 2

Attention aux seules valeurs chiffrées !

La première "chose à faire" !

Représenter/Tracer/Cartographier les variables de la population !

Introduction à Pandas

Documentation de Pandas Guide Pandas en 10 minutes

Pandas ?

Librairie python pour manipuler, explorer, visualiser, nettoyer, traiter... intuitivement des données tabulaires :

Importer Pandas


import numpy as np
import pandas as pd
							

Deux structures de données de base dans Pandas (Classes Python)

  • Series: Données unidimensionnelles de n'importe quel type
  • DataFrame: Données tabulaires

Creation d'un Dataframe


df = pd.dataframe(data, index=index_names, columns=columns_names)
							
  • df: la variable Python qui va contenir le dataframe.
  • data: les données sous forme de tableau Python, de dictionnaire ou d'array de Numpy.
  • index: (optionnel) la liste des indices des individus
  • columns: (optionnel) la liste des noms des variables (statistiques)

Exemple


data = [[20, "F", 1.64], [21, "M", 1.52], [21, "F", 1.72]]
names = ["Alice", "Bob", "Eve"]
variables = ["age", "genre", "taille"]
df = pd.DataFrame(data, columns=variables, index=names)
df
							

Lecture / Ecriture de données

Exemple : df = pd.read_csv("chemin/vers/le/fichier.csv")

Sélection d'un sous-ensemble des données

Toutes ces méthodes renvoient une nouvelle table, elles ne modifient pas df

Modifier l'age d'Alice : df.loc["Alice", "age"] = 21 (modifie vraiment df)

Modifier l'age de tout le monde : df.loc[:, "age"] = df.loc[:, "age"] + 1

Ajouts de nouvelles colonnes


df["envergure des bras"] = [1.60, 1.76, 1.74]
df["Indice Ape"] = df["envergure des bras"]/df["taille"]
df
							
age genre taille envergure des bras Indice Ape
Alice 20 F 1.64 1.60 0.975610
Bob 21 M 1.52 1.76 1.157895
Eve 21 F 1.72 1.74 1.011628

Autres fonctionnalités

  • Jointures (fusionner des tables)
  • Groupements
  • Aggrégation
  • Méthodes statistiques
  • Visualisation de données
  • Transformations sur les lignes et les colonnes
  • ...

Cas particulier des données géographiques

La librairie GeoPandas étend Pandas pour les données géographiques (vecteurs)

Lecture de divers formats de fichiers géospatialisés (shapefile, geojson...)

Colonne geometry qui stocke les unités spatiales (Shapely)

Opérations géométriques et topologiques