11045 articles  [english version]
Fiche détaillée Thèses
Université Paris Sud - Paris XI (06/04/2012), Jean-Claude Desenclos (Dir.)
Liste des fichiers attachés à ce document : 
PDF
VA_HERAUD_VANINA_060412.pdf(3.3 MB)
Traitement des données manquantes en épidémiologie : Application de l'imputation multiple à des données de surveillance et d'enquêtes.
Vanina Héraud Bousquet1

Le traitement des données manquantes est un sujet en pleine expansion en épidémiologie. La méthode la plus souvent utilisée restreint les analyses aux sujets ayant des données complètes pour les variables d'intérêt, ce qui peut réduire lapuissance et la précision et induire des biais dans les estimations. L'objectif de ce travail a été d'investiguer et d'appliquer une méthode d'imputation multiple à des données transversales d'enquêtes épidémiologiques et de systèmes de surveillance de maladies infectieuses. Nous avons présenté l'application d'une méthode d'imputation multiple à des études de schémas différents : une analyse de risque de transmission du VIH par transfusion, une étude cas-témoins sur les facteurs de risque de l'infection à Campylobacter et une étude capture-recapture estimant le nombre de nouveaux diagnostics VIH chez les enfants. A partir d'une base de données de surveillance de l'hépatite C chronique (VHC), nous avons réalisé une imputation des données manquantes afind'identifier les facteurs de risque de complications hépatiques graves chez des usagers de drogue. A partir des mêmes données, nous avons proposé des critères d'application d'une analyse de sensibilité aux hypothèses sous-jacentes àl'imputation multiple. Enfin, nous avons décrit l'élaboration d'un processus d'imputation pérenne appliqué aux données du système de surveillance du VIH et son évolution au cours du temps, ainsi que les procédures d'évaluation et devalidation.Les applications pratiques présentées nous ont permis d'élaborer une stratégie de traitement des données manquantes, incluant l'examen approfondi de la base de données incomplète, la construction du modèle d'imputation multiple, ainsi queles étapes de validation des modèles et de vérification des hypothèses.
1 :  Département santé environnement
Données manquantes – Imputation multiple – Analyse de sensibilité – Enquêtes – Systèmes de surveillance – VIH – Hépatite C chronique

Missing data management in epidemiology : Application of multiple imputation to data from surveillance systems and surveys.
The management of missing values is a common and widespread problem in epidemiology. The most common technique used restricts the data analysis to subjects with complete information on variables of interest, which can reducesubstantially statistical power and precision and may also result in biased estimates.This thesis investigates the application of multiple imputation methods to manage missing values in epidemiological studies and surveillance systems for infectious diseases. Study designs to which multiple imputation was applied were diverse: a risk analysis of HIV transmission through blood transfusion, a case-control study on risk factors for ampylobacter infection, and a capture-recapture study to estimate the number of new HIV diagnoses among children. We then performed multiple imputation analysis on data of a surveillance system for chronic hepatitis C (HCV) to assess risk factors of severe liver disease among HCV infected patients who reported drug use. Within this study on HCV, we proposedguidelines to apply a sensitivity analysis in order to test the multiple imputation underlying hypotheses. Finally, we describe how we elaborated and applied an ongoing multiple imputation process of the French national HIV surveillance database, evaluated and attempted to validate multiple imputation procedures.Based on these practical applications, we worked out a strategy to handle missing data in surveillance data base, including the thorough examination of the incomplete database, the building of the imputation model, and the procedure to validate imputation models and examine underlying multiple imputation hypotheses.
Missing data – Multiple imputation – Sensitivity analysis – Surveillance systems – Surveys – HIV – Chronic hepatitis C