Système d'information sur les nouvelles entreprises 2018 

Sine 2018

Sources
Paru le :Paru le17/07/2024
Consulter

Précision et fiabilité

Précision globale

Des calculs de précision sont effectués sur les variables.

Erreur aléatoire

Avec 40 000 unités dans l’échantillon, il a été possible d’obtenir comme paramètres :

  • des coefficients de variation de 0,09 (taux de survie réel) et 0,11 (taux de survie au pire cas) pour les créateurs classiques ;

  • des coefficients de variation de 0,12 (taux de survie réel) et 0,07 (taux de survie au pire cas) pour les auto-entrepreneurs.

Erreur non aléatoire

Les estimateurs peuvent comporter une part d’erreurs non-aléatoires liées à un défaut de couverture (cf. infra), aux erreurs de mesure, à la non-réponse, aux erreurs de traitement (saisie) et/ou de modélisation.

Erreur de couverture

L’échantillon est tiré en septembre 2018 à partir des créations d’entreprises au premier semestre 2018 renseignées dans SIRENE à la date du tirage. Les créations d’entreprise qui ne sont pas remontées à SIRENE à cette date ne sont pas échantillonnées (de l’ordre de 2% du nombre total de créations).

A l’inverse, une partie des unités enquêtées est mise hors champ à l’occasion du traitement des données collectées en première vague à l’aide des données SIRENE révisées. Cela concerne en particulier les entreprises dont la durée de vie est inférieure à 30 jours.

Erreur de non-réponse

La non-réponse partielle fait l’objet d’imputations :

correction des données par cold-deck (sur l’emploi à partir de la source EPURE, sur les chiffres d’affaire à partir de la source ESANE) ou hot-deck (imputation des autres réponses au questionnaire par donneur/receveur).

La non-réponse totale est redressée par imputation, en deux temps :imputation du statut d'activité (active ou cessée) à l'aide d'un modèle du statut d'activité, puis imputation à l'aide d'un modèle de la non-réponse. Des repondérations successives conduiraient à l'issue des trois interrogations de la cohorte à avoir trois jeux de poids dans le fichier final, un pour chaque interrogation. Ceci poserait alors des problèmes difficiles à résoudre pour le croisement de plusieurs variables de vagues différentes.