La méthodologie des appariements Séminaire de Méthodologie statistique et de sciences des données du 12 avril 2021

L'Insee et la statistique publique
Dernière mise à jour le : 15/09/2022

Les statisticiens sont souvent amenés à coupler des bases de données d'origine distincte et contenant des informations différentes sur les mêmes unités statistiques. Ce processus d'appariement présente de multiples enjeux : la construction de répertoires, l'enrichissement de données d'enquête ou encore le repérage de doublons. La tâche est aisée si les deux bases disposent d'un identifiant direct commun pour tous les enregistrements. En l'absence d'un tel identifiant ou lorsque celui-ci n'est pas de bonne qualité, l'appariement se fait alors sur une combinaison d'autres champs (état civil, adresse, etc.) qui eux-mêmes peuvent présenter des défauts. Il s'agit ainsi d'utiliser une méthode permettant de répérer, parmi toutes les paires possibles du produit cartésien des deux bases, lesquelles correspondent à un seul et même individu ; et ce malgré des informations plus ou moins erronnées sur les champs servant à l'identification.
Dans une approche de partage méthodologique, ce séminaire sera l'occasion de présenter une rapide revue des méthodes d'appariement et des principaux concepts (identification versus appariement flou) guidant le choix et la mise en place d'un processus d'appariement ainsi que de témoigner de quelques exemples de traitement mis en oeuvre récemment en termes d'appariement : le projet InserJeunes, l'outil RELAIS développé par l'Institut national de statistique italien (Istat) et l'outil Rapsodie du pôle Revenus Fiscaux et Sociaux de la Direction régionale de Rennes. Les leçons pratiques et généralisables accompagnant la mise en place de telles techniques feront enfin l'objet d'une table ronde de partages d'expérience et de conseils qui viendront alimenter les réflexions en cours du programme REpertoire Statistique Individus Logements à la Direction des Statistiques démographiques et sociales. Ces réflexions s'inscrivent plus largement dans le cadre de l'investissement de l'Insee sur l'exploitation généralisée des sources administratives.

  Lucas, Malherbe, SSP Lab, DMCSI, Insee

  Mauro Scanu, Istat

  Jean-François Portier et Pierre-Eric Treyens, Pôle Revenus Fiscaux et Sociaux, DR Bretagne, Insee

Le projet InserJeunes (pdf, 385 Ko )

  Loïc Midy, Depp