Module d’Analyse Statistique :

Introduction générale

M2 IGAST

Martin Cubaud

LASTIG-UGE-IGN/ENSG

2024-2025

Introduction générale

Réferences

Analyse spatiale : définition

L'analyse spatiale étudie la répartition et l'organisation d'ensembles d'objets qui sont localisés.

L'objectif est de :

"déceler en quoi la localisation apporte un élément utile à la connaissances des objets étudiés et peut en expliquer les caractéristiques"

[Pumain, Saint-Julien 97]

Specifité de l'analyse spatiale

Analyse statistique :

Méthodes résumant et généralisant des observations

  • Les unités d'analyse sont des éléments indépendants en principe
  • On ne s'intéresse pas à leur localisation ni à leurs intéractions (spatiales)

Analyse spatiale statistique :

  • Les unités d’analyse sont localisables
  • On s’intéresse à leur propriétés y compris la localisation
  • On fait l’hypothèse que leur localisation peut influencer les valeurs observées

Données spatiales vs. non spatiales

Données spatiales :

Individus restreints spatialement (selection spatiale), ou variables de localisation géographique (e.g. Lieu de résidence, coordonnées) renseignées pour les individus

Quid des distances ? → modèle gravitaire, réseau etc.

Deux approches

Analyse géométrique :

Approche géométrique pour mieux décrire les données: analyse de forme, de réseaux, de proximité, méthodes de création de nouvelles entités à partir de la géométrie des objets.

Analyse de données :

Approche statistique permettant de faire émerger des relations (des groupes, des lois) pour aider l'étude de certains phénomènes.

Statistiques Inférentielles

vs

Statistiques Descriptives

Statistiques Inférentielles

A partir d’un échantillon , que peut-on attendre (=inférer) de la population ?

  • Modèles, estimateurs... : régression, estimation, extrapolation
  • e.g. sondages, recensement...

Statistiques Inférentielles : exemple

Penguins data were collected and made available by Dr. Kristen Gorman and the Palmer Station, Antarctica LTER, a member of the Long Term Ecological Research Network.

[https://github.com/allisonhorst/palmerpenguins]

Statistiques Descriptives

Décrire, résumer, synthétiser les propriétés d'une population à partir des variables qui décrivent ses individus.

  • Graphiques : nuages de points, histogramme...
  • Mesures (fréquences, distributions, moments) sur des variables
  • Liaisons statistiques entre variables : corrélation, covariance...
  • Structure interne des données : classification, ACP...

Attention aux groupes ! (paradoxe de Simpsons)

Paradoxe de Simpsons

Dans ce module

Nous ferons majoritairement de la statistique descriptive

(même si, pour bien décrire, il faut parfois inférer).

Vocabulaire

Population

Ensemble d'individus

"données", "corpus", "échantillon", "data"

très souvent tabulaires

Individu

Unité statistique élémentaire : personnes, logements...

→ "les lignes du tableau"

Variables

Caractéristiques, propriétés d'un individu, mesurées par des enquêtes, des observations...

→ "les colonnes du tableau"

Types de variables

Qualitatives : facteurs e.g. couleur, genre, CSP, type de pokemon... → notion de modalité

Quantitatives : nombres e.g. taille, masse, revenu, surface, points de vie... parfois exprimés avec des unités : m, kg, s

Discrètes et Continues

Variables quantitatives continues : $var \in \R $

Valeurs réelles, toutes les valeurs de l'intervalle de mesures peuvent exister

Variables quantitatives discrètes : $var \in \N $

Valeurs entières, pour des attributs dénombrables (comptage)

parfois utilisées pour encoder une variable qualitative à deux modalités e.g. présence (1), absence (0)

Variables qualitatives

Les valeurs sont prises dans un ensemble fini de valeurs possibles, défini par extension (i.e. on donne la liste des valeurs possibles)

→ notion de modalités

nominales (non ordonnées ex état civil) ou

ordinales (ordonnées ex échelle de Likert)

L'échelle d'Analyse

Spécificité de la statistique spatiale : à quelle échelle observer ?

Quel découpage, quelles unités spatiales ?

"Problème insoluble" : le MAUP (Modifiable Areal Unit Problem)

Unités spatiales

Mailles administratives :

agrégation/imbrication d’unités spatiales prédéfinies : comtés, départements, régions, pays...

e.g. Comprendre comment le taux de chômage d'un pays est distribué entre les régions pour guider les politiques économiques

Découpages :

identification d'unités spatiales ayant des catactéristiques semblables

e.g. IRIS, carroyage

échelle individuelle vs echelle agrégée

Désagrégation ou Ventilation :

→ Inférer des caractéristiques individuelles à partir de l'analyse de données agrégées (ni facile ni immédiat)

Agrégation :

→ Inférer des caractéristiques concernant les unités agrégés d'après les caractéristiques individuelles

le MAUP (Modifiable Areal Unit Problem)

Problème d'agrégation spatiale : les résultats d'une analyse statistique spatiale dépendent du choix d'agrégation

→ biais "systématique et insoluble"

Exemples tirés du rapport ESPON :

https://www.espon.eu/sites/default/files/attachments/espon343_maup_final_version2_nov_2006.pdf

MAUP exemple 1

MAUP exemple 2

Attention aux seules valeurs chiffrées !

La première "chose à faire" !

Représenter/Tracer/Cartographier les variables de la population !