Les fichiers de données sont aujourd’hui disponibles pour cinq vagues au format STATA ou SPSS. A chaque module du questionnaire correspond un fichier contenant les données individuelles détaillées pour l’ensemble des individus ayant participé à l’enquête dans les différents pays européens de SHARE. La partie intitulée Coverscreen (composition du ménage) donne lieu à la création de 2 fichiers : CV-H au niveau ménage et CV-R au niveau individuel contenant l’ensemble des individus éligibles. Toutes ces données sont fournies de manière anonyme, chaque individu possédant un identifiant ménage (hhid) et individuel (mergeid).
Dans le cadre du questionnaire principal, différents modules de questions sont posés au répondant. Si une personne vit seule, elle répondra à tous les modules. En revanche, dans le cas d'un couple, certains modules ne seront posés qu'à une personne du ménage.
Il existe trois grands types de répondants dans un foyer :
Cette division explique pourquoi il y a plus ou moins de répondants par question selon les différents modules.
Comme c’est le cas pour beaucoup d’enquêtes, certaines questions du questionnaire SHARE sont filtrées suivant les réponses fournies aux questions précédentes (âge du répondant, résidence ou non en maison de retraite, etc). Ces filtres peuvent générer un nombre important de valeurs non-renseignées dans les fichiers. Le fait de faire partie de l’échantillon longitudinal constitue également un filtre important, un certain nombre de questions n’étant pas posé aux personnes ayant déjà été interrogées lors d’une vague précédente.
Plusieurs milliers de variables sont disponibles dans l’ensemble des fichiers de données. Chaque fichier contient :
- Les boucles : une même question peut être posée plusieurs fois avec la variation de certains champs. Le code de la variable contient alors le numéro de la question suivi de l’occurrence de la question. Par exemple, la variable « ph068_3 » correspond à la troisième occurrence de la question ph068.
- Les questions à choix multiples : chaque variable correspond à une modalité de réponse à la question. Par exemple, la variable « ph010d3 » correspond à la troisième modalité de réponse de la question ph010. Ces variables sont des variables binaires indiquant si oui (1) ou non (0) le répondant a sélectionné cette réponse.
Pour plusieurs modules, en raison de spécificités nationales importantes (dans le domaine de l’éducation par exemple), certaines variables ont été créées afin de pouvoir comparer les résultats. Par ailleurs, pour certaines variables, des redressements de non réponses ont été réalisés et des valeurs manquantes ont été imputées. Ces variables sont disponibles dans des fichiers séparés, tels que :
Après le téléchargement des données brutes, il est recommandé d’utiliser la procédure SHARETOM, développée par l’équipe du MEA. Ce programme automatique (sharetom.ado) est téléchargeable avec les données et permet de transformer certaines valeurs associées aux valeurs manquantes (-1 pour « Ne sait pas » par exemple) en codes qui ne rentrent pas dans le calcul des statistiques (.a pour « Ne sait pas »).
Par ailleurs des jeux de pondération sont prévus pour l’exploitation des données et sont fournis dans des fichiers téléchargeables avec les données de chaque vague SHARE. Ils permettent d’effectuer des analyses transversale ou longitudinale des données ainsi qu’au niveau ménage ou individuel. Ces pondérations sont nécessaires pour s’assurer que les informations sont représentatives des différentes populations concernées et permettent d’effectuer des interprétations sur ces populations.