Share > Données > Fichiers de données

Comment lire les fichiers de données SHARE ?

Les fichiers de données sont aujourd’hui disponibles pour cinq vagues au format STATA ou SPSS. A chaque module du questionnaire correspond un fichier contenant les données individuelles détaillées pour l’ensemble des individus ayant participé à l’enquête dans les différents pays européens de SHARE. La partie intitulée Coverscreen (composition du ménage) donne lieu à la création de 2 fichiers : CV-H au niveau ménage et CV-R au niveau individuel contenant l’ensemble des individus éligibles. Toutes ces données sont fournies de manière anonyme, chaque individu possédant un identifiant ménage (hhid) et individuel (mergeid).

 

Répartition des questions au sein du ménage

Dans le cadre du questionnaire principal, différents modules de questions sont posés au répondant. Si une personne vit seule, elle répondra à tous les modules. En revanche, dans le cas d'un couple, certains modules ne seront posés qu'à une personne du ménage.

Il existe trois grands types de répondants dans un foyer :

  • Le répondant famille correspond à la personne ayant répondu en premier dans un couple. Il répond au module CH et au début du module SP (SP001-SP017) ; il est identifié par la variable dumfamr.
  • Le répondant ménage est défini au début du premier entretien individuel. Il répond aux questions concernant le ménage dans son ensemble (modules HO, HH, CO) ; il est identifié par la variable dumhhr ;
  • Le répondant financier est défini avant le début du module DN du premier entretien individuel. Il répond au module FT et AS ; il est identifié par la variable dumfinr.

Cette division explique pourquoi il y a plus ou moins de répondants par question selon les différents modules.

 

Questions filtrées

Comme c’est le cas pour beaucoup d’enquêtes, certaines questions du questionnaire SHARE sont filtrées suivant les réponses fournies aux questions précédentes (âge du répondant, résidence ou non en maison de retraite, etc). Ces filtres peuvent générer un nombre important de valeurs non-renseignées dans les fichiers. Le fait de faire partie de l’échantillon longitudinal constitue également un filtre important, un certain nombre de questions n’étant pas posé aux personnes ayant déjà été interrogées lors d’une vague précédente.

 

Contenu des fichiers

Plusieurs milliers de variables sont disponibles dans l’ensemble des fichiers de données. Chaque fichier contient :

  • Des variables communes à tous les modules et des identifiants (mergeid, hhid, hhid1, hhid2, country, waveid, split, language, cvid) ;
  • Des variables spécifiques, générées à partir de chacune des questions. Ces dernières sont identifiées par un code contenant le numéro de la question. Ce code est constitué d’une abréviation à deux caractères (le nom du module en anglais + un nombre à 3 chiffres). Par exemple, la variable « FT002» correspond à la question « 002 » du module « FT – Transferts financiers ». Deux exceptions principales existent :

- Les boucles : une même question peut être posée plusieurs fois avec la variation de certains champs. Le code de la variable contient alors le numéro de la question suivi de l’occurrence de la question. Par exemple, la variable « ph068_3 » correspond à la troisième occurrence de la question ph068.

- Les questions à choix multiples : chaque variable correspond à une modalité de réponse à la question. Par exemple, la variable « ph010d3 » correspond à la troisième modalité de réponse de la question ph010. Ces variables sont des variables binaires indiquant si oui (1) ou non (0) le répondant a sélectionné cette réponse.

 

Les spécificités nationales

Pour plusieurs modules, en raison de spécificités nationales importantes (dans le domaine de l’éducation par exemple), certaines variables ont été créées afin de pouvoir comparer les résultats. Par ailleurs, pour certaines variables, des redressements de non réponses ont été réalisés et des valeurs manquantes ont été imputées. Ces variables sont disponibles dans des fichiers séparés, tels que :

  • gv_health.dta : variables générées relatives à la santé ;
  • gv_housing.dta : variables générées relatives au logement ;
  • gv_isced.dta : variables générées relatives à l’éducation ;
  • gv_weights.dta : pondération tenant compte des répondants uniquement ;
  • gv_weights_nrp.dta : pondération tenant compte des conjoints n’ayant pas répondu ;
  • imputations.dta : variables imputées.

 

Conseils d’utilisation des données

Après le téléchargement des données brutes, il est recommandé d’utiliser la procédure SHARETOM, développée par l’équipe du MEA. Ce programme automatique (sharetom.ado) est téléchargeable avec les données et permet de transformer certaines valeurs associées aux valeurs manquantes (-1 pour « Ne sait pas » par exemple) en codes qui ne rentrent pas dans le calcul des statistiques (.a pour « Ne sait pas »).

Par ailleurs des jeux de pondération sont prévus pour l’exploitation des données et sont fournis dans des fichiers téléchargeables avec les données de chaque vague SHARE. Ils permettent d’effectuer des analyses transversale ou longitudinale des données ainsi qu’au niveau ménage ou individuel. Ces pondérations sont nécessaires pour s’assurer que les informations sont représentatives des différentes populations concernées et permettent d’effectuer des interprétations sur ces populations.

  • Pour obtenir des informations détaillées sur la méthodologie et l’utilisation des fichiers de données, vous pouvez consulter les guides intitulés « Release Guide » disponibles pour chacune des vagues de l’enquête. Ces guides sont accessibles ici