Big Data et Statistiques publiques : questions de méthodes Séminaire de Méthodologie Statistique du département des méthodes statistiques du 30 novembre 2016

L'Insee et la statistique publique
Dernière mise à jour le : 06/03/2017

La prolifération exceptionnelle de données, souvent désignées sous le terme de « Big Data », est parfois considérée comme une opportunité pour améliorer et enrichir la production d'information. En parallèle, les technologies permettant de traiter des données très volumineuses ou de format complexe se sont développées à un rythme rapide sur la période récente et fournissent de nouveaux outils aux statisticiens. L'utilisation de ces nouvelles données représente cependant un enjeu technique et statistique dont le praticien doit avoir une bonne compréhension pour faire des choix méthodologiques raisonnés.

Ce séminaire a été l'occasion de présenter un aperçu des expérimentations menées sur ces thèmes au sein du département des méthodes statistiques. Après une introduction générale présentant le contexte, notamment européen, de l'exploitation de nouvelles sources pour la statistique publique, les exposés ont abordé des bilans pratiques de ces expérimentations. Tout d'abord, un premier exposé a présenté les solutions techniques et logicielles qui peuvent s'avérer nécessaires pour traiter de très grands volumes de données. Un deuxième exposé a proposé une introduction aux méthodes d'apprentissage automatique (« machine learning »), au travers en particulier d'une exploitation de données de téléphonie mobile. Enfin, un dernier exposé a fourni une présentation pratique des outils qui peuvent être mobilisés pour traiter des données de formats moins standards (texte ou réseau).

   Pauline Givord – Division Méthodes appliquées de l'économétrie et de l'évaluation, Insee

   Benjamin Sakarovitch – Division Méthodes appliquées de l'économétrie et de l'évaluation, Insee

   Stéphanie Combes – Division Méthodes appliquées de l'économétrie et de l'évaluation, Insee