Principe 8 : Procédures statistiques adaptées
Des statistiques de qualité sont fondées sur des procédures statistiques adaptées, mises en oeuvre tout au long des processus statistiques.
Indicateur 8.1
Lorsque les statistiques européennes sont fondées sur des données administratives ou autres, les définitions et les concepts utilisés à des fins non statistiques sont une bonne approximation de ceux qui sont employés en statistique.
Les sources administratives sont utilisées pour produire de nombreuses statistiques publiques. La déclaration sociale nominative (DSN) est par exemple exploitée pour produire des statistiques sur l’emploi ou les salaires.
Pour passer des sources administratives aux statistiques publiques qu’il produit, l’Insee met en place des processus pour rapprocher les données brutes des concepts statistiques usuels. Ainsi, dans le processus Ésane (Élaboration des statistiques annuelles d'entreprises), des traitements spécifiques visent à concilier les données administratives et celles issues d’enquêtes sur échantillon. De même, l’exploitation des sources fiscales et sociales qui alimentent les dispositifs produisant des statistiques sur les revenus, la pauvreté et les inégalités, suppose de rapprocher le concept de « foyer fiscal » utilisé dans les sources fiscales et la notion de « ménage » employé dans les enquêtes de la statistique publique (dont l’enquête SRCV).
Les chaînes de traitement des dispositifs basés sur des sources administratives incluent des étapes de contrôles, de validations et, si nécessaire, de redressements. Au terme des traitements, différentes variables à usage statistique sont produites. Dans le cas des dispositifs s’appuyant sur les sources fiscales et sociales, il s’agit par exemple du revenu déclaré, du revenu disponible et de variables permettant de catégoriser les ménages à partir de leurs caractéristiques socio-démographiques. Les traitements effectués ainsi que leurs résultats sont retracés dans des documents ad hoc mis à disposition sur le site de l’Insee (exemple : Filosofi).
Par ailleurs, lorsque l'Insee lui-même est responsable d’une source administrative, le traitement de cette source est clairement distingué de la production de statistiques publiques. C’est le cas pour les trois registres inter-administratifs dont il a la charge : RNIPP (Répertoire national d’identification des personnes physiques), le REU (Répertoire électoral unique) et Sirene (registre entreprise). Ainsi pour les statistiques sociales, les identifiants individuels présents dans les répertoires de personnes physiques ne sont pas directement utilisés, alors que pour les statistiques sur les entreprises, un répertoire spécifique est produit (Sirus).
Indicateur 8.2
Les questionnaires utilisés dans les enquêtes statistiques sont systématiquement testés avant la collecte des données.
Les questionnaires d'enquête, qu’il s’agisse d’enquêtes non récurrentes ou récurrentes mais ayant fait l’objet de modifications, sont systématiquement testés avant la collecte des données par des agents de l’Insee (concepteurs, gestionnaires et enquêteurs spécialisés). Les tests peuvent prendre des formes diverses (focus groups, tests standards, etc.).
La réalisation de tests de questionnaires fait partie des dix recommandations essentielles du Ouvrir dans un nouvel ongletComité du label de la statistique publique pour la constitution des dossiers de demande d’avis de conformité. Ainsi, avant d'attribuer un avis de conformité, le Comité du label examine notamment les comptes rendus des tests qui ont été réalisés. Les difficultés rencontrées y sont décrites et des modifications à apporter sont proposées. Les tests permettent également de vérifier que les temps de réponse observés sont admissibles en termes de coût et de charge de réponse.
Par ailleurs, pour faire évoluer les questionnaires, notamment ceux des enquêtes européennes, les services producteurs s’appuient sur les lignes directrices fournies par Eurostat, mais aussi sur des avis externes et les enseignements issus d’exercices précédents.
Indicateur 8.3
Les processus statistiques sont régulièrement contrôlés et révisés si nécessaire.
Au sein de l’Insee, le département des méthodes statistiques fournit des lignes directrices, recommande des méthodologies appropriées, les revoit régulièrement et les révise si nécessaire. Il élabore et partage de nombreux documents méthodologiques, qui sont autant de lignes directrices sur la coordination d’échantillons, le sondage équilibré, les méthodes d’estimation de la précision, de correction de la non-réponse, les petits domaines, etc. Il peut également apporter son appui aux producteurs comme il l’a fait lors de la révision des méthodes de redressement de la non-réponse de l’ enquête SRCV. Le département révise par ailleurs les échantillons lorsque c’est nécessaire et calcule la précision des résultats ou fournit aux services producteurs les outils nécessaires pour le faire.
Par ailleurs, les services producteurs rédigent des bilans de production afin de pouvoir tirer, pour les millésimes suivants, les enseignements des éditions précédentes des enquêtes ou productions issues de sources administratives. La révision des dispositifs est intégrée au processus de production. Ainsi, pour chaque édition, y compris pour les enquêtes régulières ou rééditées, les questionnaires sont modifiés si nécessaire et testés, les enquêteurs sont formés en amont de la collecte après révision du contenu et des supports de formation, les documents de collecte sont révisés, les traitements aval (contrôles-validation, pondérations, imputations) sont ajustés au besoin. Lorsque des modifications d’envergure s’avèrent nécessaires, l’Insee engage des refontes de ses processus, comme celle du dispositif SRCV ou de l’enquête Emploi sur la période récente.
Enfin, dans le cadre de l’examen préalable à la délivrance de l’avis de conformité de tout projet d’enquête, le Ouvrir dans un nouvel ongletComité du label de la statistique publique étudie de manière approfondie la description du sondage, du mode de collecte, des traitements et de la diffusion envisagés. En particulier, la méthode d'actualisation de l'échantillon fait partie intégrante de la description de la méthode d'échantillonnage soumise au Comité du label. En outre, il examine les enquêtes permanentes tous les cinq ans.
Indicateur 8.4
Les métadonnées liées aux processus statistiques sont gérées tout au long des processus statistiques et diffusées, lorsque c’est nécessaire.
L'Insee a mis en place un référentiel de métadonnées statistiques (RMéS) qui structure et centralise ces informations. Les concepts, nomenclatures, variables, listes de codes ou toute autre information relative aux opérations statistiques y sont décrits selon des normes internationales et peuvent être restitués à des utilisateurs variés, sous des formats divers pouvant être lus par des machines. Par exemple, RMéS alimente les pages « Définitions », « Nomenclatures » et « Sources et méthodes » du site insee.fr.
Le recours aux métadonnées contenues dans le référentiel peut aller au-delà de leur rôle de description et d’aide à la compréhension. Ainsi, des outils complémentaires ont été développés permettant, par exemple, de générer les supports de collecte (questionnaire en PDF, support de collecte par Internet) à partir des métadonnées et de visualiser le support ainsi obtenu.
Les différents outils mis en place font l’objet d’actions de formation ou de tutorat auprès des producteurs pour qu’ils puissent les utiliser efficacement. Une large campagne de communication interne a également été lancée pour assurer leur promotion avec en point d’orgue la Ouvrir dans un nouvel ongletK’RMéS qui a eu lieu à l’automne 2020 et a consacré une journée à la présentation du référentiel et de ses atouts.
Indicateur 8.5
Les révisions sont faites selon des procédures normalisées, bien établies et transparentes.
La politique générale de révision, formalisée par l’Insee en 2019, présente les différents types et motifs de révisions. Un protocole interne d’annonce des révisions a été élaboré en parallèle. Il précise le cadre de ces annonces, et le caractère nécessaire ou préférable de la communication sur la révision. Quatre critères de décision sont pris en compte : sensibilité du sujet, ampleur, nature, origine.
Ce dispositif a inspiré la politique commune de révision des services statistiques ministériels (SSM), élaborée en 2020 et disponible sur les sites des SSM.
Les révisions de routine sont ainsi diffusées selon des calendriers prédéfinis et actualisés. L’agenda des indicateurs mentionne les dates de publications des principaux indicateurs économiques dans leurs différentes versions.
Les refontes sont annoncées au grand public, autant que faire se peut, avant la publication des statistiques révisées. Ainsi, la diffusion en 2019 des données liées à l'Élaboration des statistiques annuelles d'entreprises (Ésane) relatives à l’exercice 2017, a été accompagnée d’une note méthodologique expliquant l’impact de la nouvelle définition de l’entreprise cohérente avec la notion économique du règlement européen 696/93.
La description des sources statistiques et indicateurs sur insee.fr contient également une rubrique relative aux révisions.
Indicateur 8.6
Des accords exprimant l’engagement réciproque d’utiliser ces données à des fins statistiques sont conclus avec les détenteurs de données administratives ou autres.
L’accès ou la réutilisation de données par l’Insee fait systématiquement l’objet d’une convention avec les administrations ou les entreprises privées détentrices de données utiles à la statistique publique. Ces conventions établissent les droits et obligations réciproques, mentionnent les caractéristiques de la source en question, le circuit de mise à disposition, le calendrier, les variables à livrer, les formats à retenir, la documentation à fournir avec les données, les conditions d’utilisation et de diffusion, les rôles des différents acteurs, les règles à respecter en matière de confidentialité, etc.
Un exemple des accords passés avec des détenteurs de données administratives est celui de la convention signée en 2018 par l’Insee et la DGFiP concernant les données de taxe sur la valeur ajoutée (TVA) issues des déclarations déposées par les entreprises. La convention précise notamment les variables transmises, la périodicité et les traitements et redressements effectués par la DGFiP, comme l’ajout de variables calculées utiles pour l’exploitation statistique ou l’enrichissement du fichier avec les codes d’activité provenant de la nomenclature officielle.
Outre des conventions pour accéder à des sources privées à des fins d’études, d’analyses ou de recherches, les partenariats avec les entreprises privées peuvent faciliter la réponse à des enquêtes de la statistique publique. Ainsi, la convention tripartite signée en 2018 entre l’Insee, le groupe Airbus et la Direction générale des douanes et des droits indirects (DGDDI) formalise les conditions de retransmission à l’Insee par la DGDDI des données relatives à Airbus au titre de l’enquête Observation des prix de l’Industrie et des services. Cet échange de données permet de réduire la charge d’enquête pour les répondants du groupe Airbus.
Indicateur 8.7
Les autorités statistiques coopèrent avec les détenteurs de données administratives ou autres pour garantir la qualité des données.
Le service statistique public (SSP) travaille avec les détenteurs de données administratives et privées pour améliorer en continu la qualité des données transmises.
Les anomalies détectées en cours de production font l’objet, dans la mesure du possible, d’un échange avec le fournisseur de données dès leur découverte. Généralement, celui-ci apporte des explications permettant de valider les données ou fait état d’un défaut avéré des données, qui peut, selon les cas, être corrigé par une nouvelle livraison de données, rectifié par l’Insee par un retraitement (imputation par exemple) ou mentionné comme limite lors de la diffusion des résultats statistiques tirés des données. Au terme de la campagne, les fournisseurs de données peuvent également être destinataires des bilans (par exemple des bilans de productions) susceptibles de les aider à améliorer les données dans le temps.
Des réunions sont généralement organisées entre les administrations détentrices des données et les statisticiens publics préalablement à chaque livraison de données ou en cas de modification substantielle attendue quant au contenu d’un fichier. Ces réunions, souvent annuelles, permettent notamment de dresser le bilan de la campagne passée, de signaler les difficultés rencontrées, de programmer et organiser les échanges de données futures, et parfois d’envisager des évolutions des conventions pour accéder à de nouvelles données.
Les collaborations avec les fournisseurs de données permettent aux statisticiens publics d’acquérir au fil du temps une meilleure connaissance des sources. Elles contribuent, par le biais des interactions entre les services collectant les données et les services les exploitant à des fins statistiques, à améliorer la qualité des statistiques produites et optimiser l’utilisation des données existantes par la statistique publique. Les échanges entre l’Insee et la DGFiP pour pallier la suppression de la taxe d’habitation en sont un exemple.