Courrier des statistiques N5 - 2020

Le numéro N5 ne pouvait ignorer le caractère spécifique de 2020 : il commence donc par un article du directeur général de l’Insee sur l’adaptation de l’institut, de ses méthodes, au contexte exceptionnel de la crise sanitaire. Le Courrier s’intéresse ensuite à des sujets structurants de gouvernance, à travers l’Autorité de la statistique publique, qui tire un bilan de dix années d’existence, et l’expérience récente du Comité du label de la statistique publique.

Comment produire des données utiles à la décision publique ? Avec une représentation cartographique d’une grande souplesse, le carroyage permet de mieux appréhender la réalité des territoires. Avec une communication adaptée, les indicateurs de valeur ajoutée des lycées répondent au besoin d’évaluation et de pilotage interne, comme aux attentes des citoyens et des médias. Avec un modèle de microsimulation dynamique sur les retraites, Prisme accompagne le législateur qui veut faire évoluer la réglementation.

Enfin, le dernier article soulève une question simple : qu’est-ce qu’une donnée ? Exploiter ce matériau constitue le cœur de métier du statisticien, mais en mesure-t-il bien toutes les dimensions ?

Courrier des statistiques
Paru le :Paru le31/12/2020
Valérie Darriau, à la date de la rédaction de l’article, cheffe de la division Statistiques et analyses urbaines, Insee
Courrier des statistiques- Décembre 2020
Consulter

Les données carroyées, des outils et méthodes innovants Pour percevoir la réalité des territoires

Valérie Darriau, à la date de la rédaction de l’article, cheffe de la division Statistiques et analyses urbaines, Insee

Les données carroyées sont des données diffusées sur une maille originale, ne correspondant à aucun découpage administratif ou historique connu : celle de carrés, dont les côtés peuvent aller de 200 mètres jusqu’à plusieurs kilomètres. Dans les zones urbaines, quand les découpages communaux sont trop imprécis pour analyser les phénomènes démographiques ou socio-économiques, l’assemblage des carreaux permet de fournir des informations précieuses.
Pour produire ce type de données, l’Insee doit relever plusieurs défis : géolocaliser les informations pour les rattacher à des carreaux, développer une méthode garantissant la protection de la vie privée et le respect du secret statistique, mettre à disposition ces données sous une forme utilisable par des experts, mais également par des amateurs, curieux de mieux connaître leur territoire et d’en avoir un aperçu rapide et éclairant.
Avec quelques exemples d’utilisation pour le déploiement de politiques publiques, l’article illustre les techniques mises en œuvre pour permettre la diffusion des données issues de sources socio-fiscales en 2019. À l’image d’une mosaïque, un carreau pris individuellement n’a pas de sens : c’est bien la proximité avec ses voisins qui va permettre à la réalité de prendre forme et au territoire de révéler la richesse et la complexité des phénomènes qui le traversent.

En 2013, l’Insee a diffusé un premier jeu d’indicateurs sur une nouvelle maille géographique : le carreau. Cette diffusion a rencontré un succès important auprès des agences d’urbanisme et spécialistes des analyses urbaines. L’attente de la mise à jour et de l’enrichissement de ces données était forte. En 2019, l’Insee a répondu à cette demande, et a souhaité faciliter l’accès à ces données et leur utilisation. Les enjeux qui se cachent derrière leur production sont plus complexes qu’il n’y paraît. Avant toute chose, les données carroyées nécessitent une méthodologie permettant de garantir confidentialité et qualité des données. Le département des Méthodes statistiques de l’Insee a engagé des travaux innovants pour répondre à cette exigence (Branchu, Costemalle et Fontaine, 2018 ; Costemalle, 2018). L’écoute des utilisateurs a également eu un rôle important pour mettre à disposition des experts de l’analyse urbaine comme du grand public les données sous la forme la plus adaptée à leurs besoins.

L’îlot et l’IRIS, premiers découpages statistiques du territoire communal

La connaissance d’un territoire nécessite de mobiliser des données statistiques à une échelle géographique fine. Très souvent, c’est le niveau communal qui est utilisé comme brique de base pour constituer des zonages d’études et répondre à des problématiques spécifiques : bassins de vie, zones d’emploi, unité urbaine, et plus récemment aires d’attraction des villes (de Bellefon, Eusebio, Forest, Pégaz-Blanc et Warnod, 2020). Les communes forment en effet une partition du territoire national, et disposent d’une offre de données riche, en particulier grâce au recensement de la population.

Cependant, dans les villes et agglomérations, les périmètres de l’intervention publique ou des projets territoriaux ne correspondent que rarement aux seules frontières des communes et nécessitent de disposer d’informations à des mailles encore plus fines.

Jusqu’en 1999, l’Insee a diffusé des données statistiques issues de chaque recensement au niveau de l’, périmètre qui correspondait à un pâté de maison. En parallèle, dans les années quatre-vingt-dix, l’Insee a construit avec les plus grandes communes un maillage de diffusion appelé , utilisé notamment pour les variables « sensibles » du recensement : ces périmètres regroupaient des îlots contigus d’une même commune, en dessinant des sortes de « quartiers ».

Utiles pour l’analyse urbaine fine, le découpage du territoire communal en îlots variait cependant entre chaque recensement, rendant malaisée, voire impossible, l’analyse des évolutions des phénomènes urbains. Depuis le recensement rénové, en 2004, la collecte du recensement n’est plus exhaustive dans les grandes communes mais se fait par sondage. Pour garantir la robustesse des données diffusées, la diffusion infracommunale a abandonné la maille de l’îlot pour adopter la seule échelle des IRIS ; avec les évolutions du territoire urbain, les contours des IRIS ont progressivement évolué, pour ne plus être systématiquement emboîtés avec la dernière maille à l’îlot, celle du recensement 1999.

 

Le carreau, une maille neutre, « simple et pratique » pour l’analyse urbaine

Pour chaque grande thématique, qu’il s’agisse de l’habitat, des transports, des équipements de proximité ou de la santé, l’espace urbain s’analyse selon des découpages spécifiques. Pour identifier, par exemple, la population résidant à proximité d’une gare, le long d’une infrastructure ou encore exposée au bruit, les périmètres d’analyse se doivent d’être précis. Leur approximation par les mailles îlot ou IRIS ne satisfont pas complètement les acteurs locaux. Leurs contours ne sont pas stables dans le temps, et leur géométrie est variable : petits en centre-ville, ils sont beaucoup plus étendus en périphérie. De plus, ces contours irréguliers entraînent l’apparition d’un phénomène géographique connu sous l’acronyme  : les formes irrégulières et les limites des maillages administratifs qui ne reflètent pas nécessairement la réalité des distributions spatiales étudiées sont un obstacle à la comparabilité des unités spatiales inégalement subdivisées (Loonis et de Bellefon, 2018).

Dans les années quatre-vingt, une technique nouvelle se développe alors, celle du carroyage (Ouvrir dans un nouvel ongletDelahaye, 1987). Son principe ? Découper le territoire en petits carrés de taille identique sur lesquels on va créer de l’information qu’il n’y aura alors plus qu’à agréger sur le territoire d’intérêt. Son usage apparaît « simple et pratique » (Ouvrir dans un nouvel ongletCertu et Cete Normandie Centre, 2011), il permet des comparaisons spatiales et temporelles plus aisées.

La difficulté réside toutefois dans la disponibilité des données : comment disposer, sur ces carreaux, de données utiles pour l’analyse, alors qu’elles sont collectées en général au niveau de la commune ou d’îlots de taille différente, de géométrie variable ? Des méthodologies se développent alors pour désagréger ou répartir l’information disponible à l’échelle de quartiers sur des carreaux (Ouvrir dans un nouvel ongletLajoie, 1992). Mais plus le découpage est fin, plus les carreaux sont petits et nombreux, plus la taille des bases de données est volumineuse et les capacités de traitement informatique sont alors inadaptées. L’évolution des technologies informatiques, le développement de la géolocalisation infracommunale et des systèmes d’information géographique ont permis de pallier ces difficultés et de démocratiser cette représentation des données.

 

Le carreau, brique de base stable pour construire un zonage d’intérêt

Fruit du découpage d’un territoire selon une grille régulière, chaque carreau pris individuellement n’a pas de « sens » géographique, il ne reflète aucune réalité territoriale connue. En revanche, il permet de reconstituer une zone d’intérêt en étant agrégé avec ses voisins.

Cette méthode a ainsi été utilisée par l’Observatoire des quartiers de gare mis en place par l’Atelier parisien d’urbanisme (Apur), pour caractériser les quartiers des futures gares du cœur de l’agglomération parisienne. Pour analyser le quartier des Ardoines, matérialisé par un disque de 800 mètres autour de la gare de Vitry-sur-Seine, l’Apur a utilisé deux approches (figure 1). La première consiste à mobiliser les données carroyées en sélectionnant les carreaux qui intersectent (même de façon minime) le périmètre. Une enveloppe de 63 carreaux est ainsi créée : sa surface totale (2,5 km²) est proche de celle du disque (2,0 km²). La seconde approche de l’Apur est de faire appel aux IRIS qui intersectent le disque. Ils sont de périmètres très variables et forment une surface totale de 3,7 km², soit près du double du quartier initialement analysé. Le carreau permet ici de reconstituer une statistique plus proche de la réalité du quartier que ne le peut l’IRIS.

L’autre intérêt de former la zone d’observation à partir des carreaux est que cela garantit une analyse temporelle sur un périmètre constant, utile pour des analyses sur longue période.

 

Figure 1. Les carreaux permettent d’approcher un périmètre d’intérêt plus finement que les IRIS

 

 

Des carreaux, mais lesquels ?

Au début des années 80, en Grande-Bretagne, un atlas présente les résultats du recensement de 1971 à l’échelle de carreaux de 1 km² et 10 km² (OPCS, 1980). Dans d’autres pays, les données carroyées se développent, dans différentes disciplines (médecine, géologie, botanique, biologie...). Mais les tailles des carreaux et l’emplacement de la grille utilisée sont variables et propres aux territoires analysés.

Au travers de la directive européenne INSPIRE (Directive 2007/2/CE), l’Union européenne a souhaité établir « une infrastructure de données géographiques pour assurer l’interopérabilité entre bases de données et faciliter la diffusion, la disponibilité, l’utilisation et la réutilisation de l’information géographique en Europe ». S’agissant des carreaux, elle vise notamment à promouvoir la création d’une « grille multi-résolution harmonisée avec un point d’origine commun et une localisation ainsi qu’une taille des cellules harmonisées » (Ouvrir dans un nouvel ongletCnig, 2020). Ainsi, la « France carroyée » peut-elle se juxtaposer à l’Allemagne ou à l’Italie carroyée, selon un schéma standard et compatible.

Pour trouver un carreau de façon univoque, il faut d’abord connaître la taille de la grille dans laquelle on se situe. Le carreau aura-t-il une longueur de 200 mètres de côté ou de 4 km ? Il faut que son identifiant précise cette information (Ouvrir dans un nouvel ongletEuropean Commission, 2010). Une fois cette résolution connue, INSPIRE a imposé par convention d’identifier un carreau par son coin inférieur gauche. En effet, avec ce seul point et la résolution de la taille du carreau (200 m), on peut tout de suite tracer le carreau correspondant, en partant du coin et en allant vers l’Est sur 200 m et vers le Nord sur 200 m. Ces deux éléments suffisent donc théoriquement à trouver le carreau, à une subtilité près : les coordonnées géographiques dépendent en effet de la utilisée. L’identifiant INSPIRE doit donc aussi le spécifier (figure 2).

Une fois les carreaux identifiés, l’étape suivante consiste à les relier aux informations statistiques.

 

Figure 2. Comment INSPIRE identifie les carreaux

 

 

Carreaux + données = données carroyées ?

L’équation semble facile à réaliser, mais sa résolution n’est pas si simple. Où résident les populations en grande précarité ? Les personnes âgées ? Où se trouvent les logements anciens ? La réponse à ces questions est présente dans des fichiers fiscaux, administratifs, de gestion... Il faut traduire une information individuelle et fine en une donnée agrégée sur l’ensemble du carreau. Pour cela, les fichiers doivent contenir une indication géographique permettant de rattacher précisément l’information à un carreau. Certains disposent déjà de coordonnées géographiques précises : c’est le cas des fichiers d’origine fiscale (taxe d’habitation par exemple) qui contiennent, outre des informations statistiques (population, revenu, etc.), un identifiant de la parcelle cadastrale sur laquelle se situe le logement ou le foyer fiscal concerné.

Comme dans l’exemple de la figure 3, chaque parcelle possède par ailleurs une étiquette, matérialisée par un point dont les coordonnées sont connues. Ce point est en général situé dans la parcelle : il suffit donc de rattacher ce point au carreau qui le recouvre pour positionner les informations de la parcelle dans le carreau.

Simple en apparence, l’opération peut se révéler quelquefois complexe. Dans de très rares cas, l’étiquette d’une parcelle peut être positionnée à l’extérieur de la parcelle, voire de la commune. Il faut alors la repérer et, si possible, corriger sa position. Selon le découpage utilisé, il peut aussi arriver que l’information soit localisée dans un carreau qui ne recouvre qu’une toute petite partie de la parcelle. Ainsi, dans l’exemple de la figure 3, le carreau n°1 s’étend sur les parcelles n°0048 et 0383, ainsi une partie de la parcelle n°049 qui comprend le bâti supposé habité ; mais cette dernière parcelle est rattachée au carreau voisin, le n°4. Les informations statistiques du carreau n°1 ne correspondront in fine qu’à une seule habitation (située sur la parcelle n°048), alors qu’il en recouvre deux (celle de la parcelle n°48 et celle de la parcelle n°49).

 

Figure 3. Carroyage de données fiscales associées à une parcelle cadastrale

 

 

Localiser l’information dans le bon carreau : le défi de l’adresse postale

Le plus souvent, les fichiers statistiques ne contiennent comme information géographique qu’une adresse postale : celle des allocataires des prestations familiales, des logements sociaux, etc. Il faut alors la situer précisément sur une carte, pour pouvoir rattacher les données correspondantes à un carreau.

Pour ce faire, il faut géolocaliser l’adresse, c’est-à-dire reconnaître la chaîne de caractères de l’adresse postale dans un « référentiel », sorte de répertoire qui contient les numéros et libellés des rues de toutes les communes de France, mais aussi leur emplacement précis. Une fois la chaîne de caractères retrouvée, on rattache alors à l’information statistique du fichier les coordonnées géographiques présentes dans le référentiel.

En milieu urbain, les adresses sont très souvent normalisées : elles comportent un numéro, un type de voie (avenue, rue...), un libellé de voie et un code postal ou un code commune. Dans ces cas, l’adresse postale est univoque. Les difficultés tiennent alors à l’identification correcte des chaînes de caractères : par exemple, une abréviation contenue dans le libellé « 245 rue du Dr Fiolle (à Marseille) » doit pouvoir être rattachée au libellé du référentiel « 245 rue du Docteur Fiolle ».

En milieu rural, les difficultés sont souvent d’une autre nature, car les adresses ne sont pas toutes normalisées : c’est très souvent le cas des lieux-dits. Retrouver de façon certaine la localisation d’un ménage (figure 4) qui indique comme adresse « Bussac Bas, hameau de Siaugues-Sainte-Marie », est quasi impossible car plusieurs maisons utilisent ce libellé d’adresses. Il faudra donc choisir de façon arbitraire à quelle adresse rattacher l’information statistique correspondante.

Quel que soit le procédé employé, utilisation de l’étiquette de parcelle cadastrale ou géolocalisation d’adresses postales, les informations statistiques sont in fine localisées précisément sur un plan et rattachées au carreau correspondant. On obtient alors des bases de données, appelées données carroyées : ce sont ces bases qui vont servir ensuite aux acteurs publics et privés à éclairer des problématiques spécifiques.

 

Figure 4. La géolocalisation des adresses postales est plus complexe en espace rural

 

 

Les données carroyées, utiles pour guider la décision publique

De la Commission européenne aux collectivités locales françaises, chacun plaide pour disposer d’informations précises sur l’urbain.

Au niveau européen, selon , les données carroyées « présentent de nombreux avantages. Parce qu’elles fournissent des données à haute résolution spatiale dans une forme et une taille standardisées, ces données peuvent être combinées de manière transparente avec les données des pays voisins. La Commission européenne s’appuie fortement sur les données carroyées pour l’analyse de l’accès aux services, comme les transports, l’éducation et les soins de santé, y compris aux services implantés de l’autre côté de la frontière nationale. En outre, les données carroyées jouent un rôle essentiel dans l’évaluation de l’exposition à la pollution et aux risques naturels et peuvent aider à orienter les services d’urgence ».

Au niveau local, les premiers utilisateurs de données carroyées sont les agences d’urbanisme : « Grâce à la finesse du maillage du carroyage, l’Agence d’urbanisme de Bordeaux Aquitaine a pu produire des analyses territorialisées riches et utiles. », indique . « Dans le Schéma directeur opérationnel des déplacements métropolitains, des éléments clés ont été apportés sur la population disposant d’un service de transport en commun à proximité. Nous avons aussi pu qualifier la densité de population sur l’étude du RER métropolitain, ou encore analyser et comparer des quartiers jusque-là mal identifiés par le découpage en IRIS ».

D’autres acteurs sont friands de ces informations : bureaux d’études, chercheurs, étudiants, collectivités locales moins outillées pour manipuler les données ; tous réclament en outre des données facilement accessibles, des supports cartographiques et des outils leur permettant de les manipuler facilement.

 

Concilier richesse de l’information...

Les données diffusées au carreau par l’Insee sont pour l’instant limitées à la source . Mobilisant des informations d’origine fiscale et sociale, cette source construite à des fins statistiques permet de fournir des indicateurs de niveau de vie, d’inégalité et de pauvreté mais aussi des données socio-démographiques, à un niveau local fin, répondant à une partie des besoins des utilisateurs. Ces données permettent ainsi d’éclairer les thématiques démographiques (petite enfance, personnes âgées, etc.), sociales (pauvreté, familles monoparentales), scolaires (fréquentation des écoles, collèges, etc.), environnementales (ancienneté des logements), urbaines (logement social, accession à la propriété), etc.

Grâce à cette source, il est possible de disposer sur un carreau de nombreuses informations :

  • informations sur les individus (nombre, tranches d’âge, etc.) ;
  • informations sur les ménages (nombre, taille, niveaux de vie, statut de propriétaire, familles monoparentales, etc.) ;
  • caractéristiques des logements (logements collectifs, logements sociaux, maisons, dates de construction).

La tentation est alors forte de vouloir croiser ces informations, pour disposer, par exemple, du nombre de ménages pauvres en logement social. Mais la finesse de la maille de diffusion (carreau de 200 m) impose des précautions particulières pour protéger la vie privée et respecter le secret statistique et le secret fiscal.

 

... et gestion du secret statistique

Le secret statistique concerne la protection des individus de toute diffusion de données individuelles et de toute ré-identification à partir des données statistiques.

Le secret fiscal régit de son côté l’utilisation des données issues de la source fiscale, donc de la source Filosofi utilisée par l’Insee. Il impose que les informations statistiques soient diffusées uniquement sur des agrégats d’au moins 11 ménages fiscaux.

Pour respecter ces dispositions, le département des Méthodes statistiques de l’Insee a élaboré une méthodologie de carroyage spécifique et originale (Branchu, Costemalle et Fontaine, 2018) qui aboutit à une diffusion des données carroyées sur deux types de grilles différents (Insee, 2019).

En effet, les grilles de carreaux évoquées jusqu’ici étaient implicitement des grilles « régulières », c’est-à-dire dont les tailles de carreaux étaient identiques partout. Mais dans l’optique de la gestion de la confidentialité, la méthode employée amène à revoir cette hypothèse. Car si, en milieu urbain, le seuil de 11 ménages est très souvent respecté sur un carreau de 200 m, en revanche, dans les zones moins denses, il est plus difficile à atteindre : 79 % des carreaux de France métropolitaine, de Martinique et de La Réunion comprennent ainsi moins de 11 ménages. Il faut parfois atteindre une taille de carreau de 32 km pour couvrir suffisamment de zones habitées et que l’information diffusée à cette échelle garantisse la confidentialité.

Une première méthode dite de « niveau naturel » va donc adapter la taille du carreau au nombre d’habitants qu’il contient. Le second type de grille est celui, plus intuitif, des grilles régulières : pour gérer la confidentialité sur ce type de grille, il faut alors accepter que les données de certains carreaux soient modifiées.

 

La grille aux carreaux de taille différente : le niveau « naturel »

La grille de niveau naturel correspond à un partitionnement du territoire en carreaux de différentes tailles (de 200 m jusqu’à 32 km) permettant de diffuser toutes les informations, tout en respectant le secret fiscal.

Concrètement, on commence par couvrir le territoire avec des carreaux de 32 km, taille nécessaire pour être certain que dans chacun de ces carreaux, il y a au moins 11 ménages. Puis on les divise en 4, pour former des carreaux de 16 km dans lesquels on décompte le nombre de ménages présents. Si jamais l’un d’eux abrite moins de 11 ménages, alors la grille ne sera pas découpée à ce niveau. On poursuit et les divisions s’arrêtent :

  • soit lorsque les carreaux obtenus sont de taille 200 m ;
  • soit lorsque la prochaine division entraînerait qu’un ou plusieurs carreaux ne respectent pas le seuil de confidentialité fixé à 11 ménages.

Dans les territoires peu denses, la division s’arrête tôt, sur des carreaux de taille élevée, comme on le voit dans l’exemple de la figure 5, à l’ouest de l’agglomération bordelaise. Dans les territoires très denses, comme le centre-ville, les données seront disponibles à 200 m.

Ce premier niveau de diffusion permet de garantir l’exactitude de toutes les données diffusées sur chaque carreau. Néanmoins, il ne se prête pas vraiment à une représentation cartographique des données : les carreaux peu denses et peu peuplés, ont une superficie très importante qui captera l’attention visuelle alors que les carreaux denses du centre-ville seront peu visibles, renforçant l’effet du MAUP cité plus haut (Floch, 2012).

En outre, il est dépendant de la source et changera donc si on diffuse d’autres sources statistiques – ou un autre millésime de cette source – au carreau. On ne pourra donc pas superposer les grilles de niveau naturel de deux sources différentes.

 

Figure 5. Exemple de découpage en carreau de niveau « naturel » dans l’agglomération bordelaise

 

 

La grille de carreaux de 200 m... ou la « règle du 80/20 »

Plus familier, le deuxième type de grille consiste à proposer un découpage régulier, de taille de carreau fixe.

Cette grille offre plusieurs avantages. Tout d’abord, elle permet de disposer d’un découpage utilisable pour n’importe quelle source. Elle permet également de récupérer de l’information disponible à un niveau géographique plus fin que le niveau naturel ne l’autorise. En effet, si le découpage du niveau naturel garantit la diffusion de données exactes, il n’optimise pas l’information diffusée.

Prenons l’exemple fictif de la figure 6. Le carreau de 1 km comprend 555 ménages. Mais lors du découpage à 200 mètres, 14 carreaux ayant moins de 11 ménages sont identifiés (en orangé) : le niveau naturel est donc dans ce cas le carreau de 1 km.

Cependant, on voit qu’au niveau du découpage à 200 m, 11 carreaux sont supérieurs au seuil et rassemblent 450 ménages, soit 81 % du nombre total. L’information pourrait être diffusée sur ces carreaux-là sans trahir le secret, or le niveau naturel ne le permet pas.

En contrepartie, il faut traiter l’information présente dans les carreaux de moins de 11 ménages. La première option envisagée pourrait être de les « blanchir », c’est-à-dire de ne pas diffuser les valeurs de ces carreaux. Toutefois, cela impliquerait que les valeurs du carreau de 1 km soient différentes de la somme des valeurs des carreaux de 200 m le composant. La seconde option est donc de récupérer l’information des carreaux non diffusables et de la répartir « aléatoirement » entre eux au sein du carreau de 1 km. Ce procédé garantit ainsi un gain d’information, la cohérence des totaux entre les niveaux de diffusion mais se traduit par la présence de données modifiées sur les carreaux non diffusables. Il est alors impératif que l’utilisateur soit averti de la méthode et qu’il puisse distinguer les valeurs réelles des valeurs imputées. Dans le fichier des données carroyées de la France métropolitaine, 80 % des carreaux de 200 m font l’objet d’une imputation, mais ils ne représentent que 20 % de la population.

 

Figure 6. Carreaux réguliers et traitement de la confidentialité

 

 

Les variables sensibles : pauvreté et niveaux de vie

La méthodologie élaborée permet de s’assurer qu’aucune information portant sur moins de 11 ménages n’est diffusée. Néanmoins, s’agissant des informations sur la pauvreté et les revenus, l’Insee a souhaité appliquer des précautions supplémentaires :

  • pour les carreaux ayant plus de 11 ménages mais dont plus de 80 % des ménages sont pauvres : le chiffre du nombre de pauvres a été ramené à la valeur de 80 % ;
  • pour la distribution des niveaux de vie, les valeurs extrêmes ont également fait l’objet d’un traitement particulier, appelé winsorisation, qui permet d’éviter la sensibilité aux valeurs extrêmes de la distribution. En pratique, après avoir calculé les niveaux de vie de chaque individu, on regarde la distribution de ces niveaux de vie pour un département donné :
    • si le niveau de vie d’un individu est supérieur au 95e centile de la distribution départementale, son niveau de vie est rabaissé à ce seuil [par exemple, dans l’Ain, si un individu a un niveau de vie de 60 000 € annuel, on lui affecte la valeur 54 680 €] ;
    • inversement, si son niveau de vie est inférieur au 5e centile de la distribution départementale, son niveau de vie est ramené à ce seuil [toujours dans l’Ain, si un individu a un niveau de vie de 8 000 € annuel, on lui affecte la valeur 9 010 €] ;
    • si son niveau de vie se situe entre ces deux seuils, aucun traitement n’est effectué.

Ce traitement permet de protéger les informations individuelles, tout en préservant l’information utile à l’analyse territoriale.

L’ensemble des traitements méthodologiques a fait l’objet d’une déclaration au délégué à la protection des données dont l’Insee relève, et les modalités de protection des données personnelles sont accessibles sur le site de l’Insee (Insee, 2020a).

 

Pour l’utilisateur averti, des bases de données pour exprimer sa créativité

Une fois les données prêtes à l’emploi, positionnées dans chaque carreau et « secrétisées », il ne reste qu’à... les utiliser. Certains utilisateurs sont experts en traitement de données et logiciels de cartographie : ils souhaitent disposer des données brutes qu’ils pourront ensuite manipuler à leur guise, pour les représenter de la façon la plus appropriée à leurs besoins. Ils apprécient la souplesse offerte par les données, qui forment autant de briques que l’on peut assembler pour créer des représentations spatiales originales.

Pour ces spécialistes, des formats de diffusion adaptés ont été utilisés, comme le format shapefile, très répandu dans l’analyse cartographique mais « propriétaire » ou le format geopackage, plus volumineux mais libre.

, auteur des représentations cartographiques de la figure 7, souligne que « ces données très originales permettent de donner à voir et d’appréhender à différentes échelles (du pays au quartier en passant par commune) les dynamiques territoriales de peuplement, de dynamisme socio-économique comme le revenu médian, les tranches d’âge ou les dates de construction des logements. La modélisation proposée, à savoir un maillage régulier du territoire permet aussi d’explorer de nouvelles formes de représentations et de géovisualisation de données géographiques issues de la statistique publique ». En revanche, ces bases de données restent lourdes à télécharger et complexes à manipuler. « Le seul bémol que je peux souligner réside dans la mise à disposition de ces données par l’Insee sous un fichier unique, trop lourd pour la manipulation de non-spécialistes » confirme Boris Mericskay.

 

Figure 7. Quelques utilisations des données carroyées par les internautes

 

 

Des cartes sur le Géoportail ou le site des Statistiques locales

Pour démocratiser l’accès aux données à des utilisateurs moins avertis, une cartographie a donc été proposée sur le site du pour toutes les tailles de carreaux (Ouvrir dans un nouvel ongletIGN, 2020).

Pour naviguer sur le territoire et zoomer sur des carreaux très fins, l’infrastructure informatique doit en effet être dimensionnée de façon conséquente pour que l’affichage soit fluide. Le Géoportail offre en outre la possibilité de mobiliser en arrière-plan des cartes carroyées de nombreuses autres couches qui viennent enrichir l’information des données. Il peut s’agir du relief, des voies de communication, ou par exemple des zones de crues de la Seine (figure 8) que l’on peut ainsi croiser avec la densité de population exposée au risque.

Les données sont également accessibles (à la maille du km²) sur le site internet consacré aux statistiques locales de l’Insee (Ouvrir dans un nouvel ongletInsee, 2020b).

Preuve toutefois que des solutions intermédiaires entre la mise à disposition de base de données et la cartographie sont possibles, certains utilisateurs experts ont développé des outils permettant d’explorer ces données, d’en exploiter toute la souplesse, en les sélectionnant, les agrégeant, voire en les téléchargeant uniquement sur leur zone d’intérêt, à l’instar par exemple d’OpenDataSoft Explore (Ouvrir dans un nouvel ongletODS, 2020) ou de France en pixel (Ouvrir dans un nouvel ongletFrancepixel, 2020).

 

Figure 8. Carte des plus hautes eaux connues sur le bassin de la Seine et Densité de population au carreau

 

 

Les données carroyées, une loupe offerte pour explorer son propre territoire...

Lorsque les données statistiques sont diffusées sous la forme de tableaux, de graphiques, ou de bases de données, il est difficile pour un utilisateur de confronter sa réalité avec les données qu’il manipule. Démocratiser l’accès à l’information des données présentées dans des carreaux, c’est offrir la possibilité à n’importe quel utilisateur d’aller voir un endroit qu’il connaît, avec deux risques majeurs.

Le premier risque est que l’information affichée lui donne le sentiment que l’information dévoile son intimité. En effet, spontanément, on peut croire que les informations sur les carreaux peu peuplés sont les vraies données. Pour éviter cette perception erronée, l’Insee et l’IGN (qui a la charge du Géoportail), ont travaillé au signalement des traitements apportés à ces données. Ainsi, sur un carreau de 200 mètres, si le nombre de ménages est inférieur à 11, le carreau est hachuré pour signaler que les données sont imputées. De plus, dans l’info-bulle du carreau figure, à côté des données statistiques, l’avertissement suivant : « Pour des raisons de confidentialité, ces données ont été modifiées. ». Enfin, des opérations de communication, avec notamment une vidéo pédagogique (Insee, 2019b), ont été réalisées afin d’expliquer la méthodologie employée pour garantir le secret.

Pour autant, au moment de la diffusion des données, et bien que l’accent ait été mis sur ce point dans la documentation, certains utilisateurs se sont inquiétés de repérer sur la carte des informations qu’ils jugeaient trop fines ou dévoilant des données personnelles. Des réponses leur ont été apportées pour détailler les mesures prises pour assurer la confidentialité.

 

... mais pas de façon microscopique

Le second risque est lié au fait que les données carroyées doivent être utilisées pour décrire une zone suffisamment dense, composée de plusieurs carreaux. À cet égard, leur utilité à une maille fine est adaptée à l’analyse urbaine. La valeur affichée sur un seul carreau n’a pas vraiment d’intérêt statistique, mais la finesse de l’information incite souvent l’utilisateur à s’intéresser à celle-ci, sur un endroit familier. Or, les données carroyées souffrent toujours d’une imprécision, en grande partie liée à la localisation de l’information.

En zone rurale, l’exemple classique est celui des grandes parcelles cadastrales comprenant une habitation au milieu d’un champ ou à proximité d’une forêt. De grande taille, la parcelle va être recouverte par plusieurs carreaux, mais l’information statistique ne sera localisée que dans un seul d’entre eux. Parfois, ce carreau « habité » se retrouvera à plusieurs centaines de mètres de l’habitation concernée, dans un lac ou une forêt.

En zone urbaine, ce phénomène se produit également. Sur une grande parcelle cadastrale comprenant plusieurs tours d’immeuble, il se peut que l’étiquette cadastrale soit positionnée une année dans un carreau situé sur une partie de la parcelle et l’année suivante sur le carreau voisin toujours dans la même parcelle. Une analyse en évolution montrera une baisse de population importante sur le premier carreau et une hausse de même ampleur sur le carreau voisin.

Interpréter des informations à une échelle aussi fine doit donc se faire avec prudence : l’intérêt premier de ces données est de permettre l’analyse de zones urbaines denses constituées de plusieurs carreaux.

 

Quelles perspectives pour les données carroyées ?

La diffusion des données carroyées réalisée en 2019 ouvre la voie à l’intégration d’autres sources statistiques sur les grilles de carreau. Le processus de production est désormais décrit et documenté. Il faut pouvoir répondre aux besoins des utilisateurs qui souhaitent que les premières thématiques couvertes par le carroyage (logement, répartition par âge de la population) soient élargies à d’autres champs utiles pour les politiques d’aménagement (emploi, transport, environnement...). « Si les mises à jour des données relatives à la population et ses caractéristiques sont toujours très attendues, les données de l’emploi suscitent les mêmes impatiences voire exigences », indique ainsi Caroline De Vellis, « il nous est également difficile, même en agrégeant plusieurs carreaux, d’obtenir des informations précieuses, comme le croisement de variables, réservées alors à des maillages plus conséquents ». Pour cela, il faut mobiliser de nouvelles sources statistiques, les géolocaliser et traiter la confidentialité. Parmi ces sources, on peut citer celles sur l’appareil productif, l’emploi salarié, ou encore le recensement de la population (encadré 1).

S’agissant de cette dernière source, les échéances vont être proches puisque Eurostat souhaite que les résultats du recensement millésimés 2021 soient valorisés sur une maille carroyée de 1 km² à l’échelle de l’Union européenne (Ouvrir dans un nouvel ongletEurostat, 2019). L’organisme européen met en avant que cette maille de diffusion permettra de mieux répondre aux attentes en « perpétuelle évolution des utilisateurs, qui attribuent une importance croissante à la disponibilité de données détaillées au niveau local. Cela permettra des analyses beaucoup plus flexibles, même au niveau transfrontalier, adaptables en fonction des besoins politiques et de recherche ».

Entre injonction européenne et besoins locaux, les demandes en données carroyées pour les études et analyses territoriales sont croissantes. L’Insee a engagé déjà un pas significatif avec la diffusion à l’été 2019 des données carroyées Filosofi 2015. Cette expérience va lui permettre de poursuivre le chemin vers une diffusion plus systématique de données sur cette nouvelle maille géographique. Entre les bases de données pour les utilisateurs avertis et la visualisation en open data, des progrès restent à faire pour offrir des fonctionnalités intermédiaires et permettre d’exploiter au maximum la souplesse offerte par cette mosaïque d’informations localisées.

 

Encadré 1. Le carroyage des résultats du recensement de population pour le millésime 2021

Un carroyage va être réalisé afin de répondre à la demande européenne de fourniture de données de population sur des carreaux de 1 km², formulée pour la première fois dans le cadre du Census 2021 (Ouvrir dans un nouvel ongletEurostat, 2019). Pour le recensement français, cela représente deux défis majeurs :

  • le premier est de géolocaliser les lieux de résidences dans les communes de moins de 10 000 habitants. Pour cela, plusieurs méthodes peuvent être utilisées. La première consiste à géolocaliser les adresses figurant sur les documents de collecte, mais elle pose des difficultés dans les communes où l’adressage n’est pas utilisé (en zone rurale par exemple). La seconde méthode, appariement dit « probabiliste », fait le lien entre le recensement et les fichiers fiscaux à partir des caractéristiques individuelles des personnes ;
  • dans les communes de plus de 10 000 habitants, les logements sont déjà géolocalisés grâce au Répertoire d’immeubles localisés (RIL). Mais le recensement s’y déroule chaque année par sondage. Le second défi consiste donc à réaliser des estimations fiables sur des carreaux dans ces communes, malgré la non-exhaustivité du recensement sur ces territoires. Des méthodes sont en cours d’expertise pour obtenir des résultats de qualité.

Ces deux défis vont être relevés dans le cadre d’un projet financé par Eurostat. Ces travaux effectués, pour le Census 2021, auront à terme un impact sur le système de production du recensement. L’objectif est d’aller au-delà de la réponse au règlement européen, en « industrialisant » la géolocalisation du recensement, pour la production nationale de données sur la population et les logements à partir du recensement. Ceci afin de permettre une diffusion pérenne de données carroyées issues du recensement sur le site www.insee.fr.

Encadré 2. Une grille, des données... pour mesurer l’impact sur l’air et la santé dans un quartier lyonnais

Un exemple intéressant de l’utilisation à la fois de la grille carroyée et des données statistiques de l’Insee est celui que l’on retrouve dans l’étude réalisée dans le cadre du projet de ZAC Part Dieu porté par le Grand Lyon, en 2016 (Ouvrir dans un nouvel ongletNumTECH, 2016). Ce projet s’accompagnait de la création de nombreux logements, de bureaux et commerces, et de la modification du schéma de la voirie, qui allaient impacter les trafics automobiles sur la zone d’étude.

L’étude avait pour objectif d’examiner l’impact sur l’air et la santé des riverains. Elle a mobilisé des données carroyées produites par l’Insee (population, figure du haut ci-dessous) mais également la grille pour offrir une représentation carroyée d’un indice Pollution/Population (IPP, figure du bas ci-dessous), calculé dans cette étude afin d’évaluer l’avant / après du projet. Le calcul de cet indicateur « repose sur le croisement d’une donnée de pollution (concentration polluante) avec une donnée de population sur le domaine d’étude. [...] À chaque maille Insee, est affectée la concentration en polluant calculée et la population correspondante. Le calcul de l’IPP est ensuite réalisé en croisant la valeur de population et la concentration. Le résultat fournit un indicateur « d’exposition » de la population. [...] L’indice a ainsi été évalué pour chaque maille de 200 m de côté de la base Insee (désignées par la suite comme les « mailles Insee »). »

Ici, la grille comme les données ont servi de support pour l’aide à la décision. Les calculs n’auraient pas pu être modélisés à l’échelle de l’IRIS dont la surface est bien trop importante au regard de la problématique des émissions de polluant sur les voiries. Le carreau apporte ici une maille d’analyse indispensable.

 

 

Références juridiques

Des IRIS (Îlots regroupés pour l’information statistique), de population moyenne égale à 2 000 habitants, ont alors été définis pour toutes les communes de plus de 5 000 habitants. Pour plus de précision.

Modifiable Areal Unit Problem.

En cartographie, un système de projection (ou de coordonnées) est un référentiel dans lequel on peut représenter des éléments dans l’espace. Ce système permet de se situer sur l’ensemble du globe terrestre grâce à un couple de coordonnées géographiques.

Lewis Dijkstra est le chef adjoint de l’unité Développement politique et analyse économique à la Direction générale de la politique régionale et urbaine de la Commission européenne.

Caroline de Vellis est statisticienne à l’Agence d’urbanisme de Bordeaux Métropole, animatrice du club Observation de la Fédération nationale des agences d’urbanisme (FNAU).

Filosofi désigne le dispositif sur les revenus localisés sociaux et fiscaux de l’Insee.

Maître de conférence à l’Université Rennes 2, coresponsable du Master SIGAT (Systèmes d’informations géographiques et analyse des territoires).

Le Géoportail est le portail national de la connaissance du territoire mis en œuvre par l’Institut géographique national (IGN).

Pour en savoir plus

APUR, 2014. Ouvrir dans un nouvel ongletObservatoire des quartiers de gare du Grand Paris – Monographie du quartier de gare Les Ardoines – Ligne 15 Sud. [en ligne]. Juillet 2014. Atelier parisien d’urbanisme. P. 6. [Consulté le 3 décembre 2020].

BRANCHU, Marc, COSTEMALLE, Vianney et FONTAINE, Maëlle, 2018. Données carroyées et confidentialité. In : 13èmesJournées de Méthodologies Statistiques. [en ligne]. 12-14 juin 2018. Insee. [Consulté le 3 décembre 2020].

CERTU et CETE NORMANDIE CENTRE, 2011. Ouvrir dans un nouvel ongletTraitements géomatiques par carreaux pour l’observation des territoires. [en ligne]. Octobre 2011. Éditions du Certu, Collection Dossiers. [Consulté le 3 décembre 2020].

CNIG, 2020. INSPIRE – Ouvrir dans un nouvel ongletPrésentation. In : site du Conseil national de l’information géographique. [en ligne]. [Consulté le 3 décembre 2020].

COSTEMALLE, Vianney, 2018. Identification des problèmes de différenciation géographique à l’aide de la théorie des graphes. In : 13èmes Journées de Méthodologies Statistiques. [en ligne]. 12-14 juin 2018. Insee. [Consulté le 3 décembre 2020].

DE BELLEFON, Marie-Pierre, EUSEBIO, Pascal, FOREST, Jocelyn, PÉGAZ-BLANC, Olivier et WARNOD, Raymond, 2020. En France, neuf personnes sur dix vivent dans l’aire d’attraction d’une ville. [en ligne]. 21 octobre 2020. Insee Focus, n°211. [Consulté le 3 décembre 2020].

DELAHAYE, Christine, 1987. Ouvrir dans un nouvel ongletLe carroyage : création d’une entité stable. In : L’Espace géographique. [en ligne]. Tome 16, n°4, pp. 265-268. [Consulté le 3 décembre 2020].

EUROPEAN COMMISSION, 2010. Ouvrir dans un nouvel ongletINSPIRE – Infrastructure for Spatial Information in Europe – D2.8.III.1_v3.0 Data Specification on Statistical Units – Technical Guidelines. [en ligne]. 10 octobre 2013. European Commission Joint Research Centre. [Consulté le 3 décembre 2020].

EUROSTAT, 2019. Ouvrir dans un nouvel ongletEU legislation on the 2021 population and housing censuses, explanatory notes. [en ligne]. Février 2019. Theme Population and social conditions, Collection Manuals and guidelines. [Consulté le 3 décembre 2020].

FLOCH, Jean-Michel, 2012. Détection des disparités socio-économiques, l’apport de la statistique spatiale. [en ligne]. 6 décembre 2012. Insee, Direction de la Diffusion et de l’Action régionale. Document de travail N°H2012/04. [Consulté le 3 décembre 2020].

FRANCEPIXEL, 2020. Ouvrir dans un nouvel ongletSite de la France en pixel. [en ligne]. [Consulté le 3 décembre 2020].

IGN, 2020. Ouvrir dans un nouvel ongletSite du géoportail. [en ligne]. [Consulté le 3 décembre 2020].

INSEE, 2019a. Documentation – données carroyées FILOSOFI 2015. [en ligne]. Juin 2019. [Consulté le 3 décembre 2020].

INSEE, 2019b. Les données carroyées de l’Insee. [en ligne]. 27 juin 2019. [Consulté le 3 décembre 2020].

INSEE, 2020a. Production et diffusion des données carroyées. [en ligne]. 24 février 2020. [Consulté le 3 décembre 2020].

INSEE, 2020b. Ouvrir dans un nouvel ongletStatistiques locales. [en ligne]. [Consulté le 3 décembre 2020].

LAJOIE, Gilles, 1992. Ouvrir dans un nouvel ongletLe Carroyage des informations urbaines – Une nouvelle forme de banque de données sur l’environnement du Grand Rouen. [en ligne]. Août 2018. Presses universitaires de Rouen et du Havre, nouvelle édition sur OpenEdition Books. [Consulté le 3 décembre 2020].

LOONIS, Vincent et DE BELLEFON, Marie-Pierre, 2018. Manuel d’analyse spatiale – Théorie et mise en œuvre pratique avec R. [en ligne]. 29 octobre 2018. Insee, Eurostat, Collection Insee Méthodes, N°131. [Consulté le 3 décembre 2020].

NUMTECH, 2016. Ouvrir dans un nouvel ongletProjet PEM / Two Lyon et ZAC Part-Dieu Ouest – Étude air et santé. [en ligne]. Août 2016. Rapport d’étude pour SETEC Environnement, Réf. 284.1015/ETR – v2.1. [Consulté le 3 décembre 2020].

ODS, 2020. Ouvrir dans un nouvel ongletPopulation française : Données Carroyées à 200 mètres – 2015. [en ligne]. [Consulté le 3 décembre 2020].

OPCS, 1980. People in Britain: a census atlas. 1er novembre 1980. Office of Population Censuses and Surveys. Stationery Office Books. ISBN 978-0116906182.