Skip to Main content Skip to Navigation
Theses

Targeted learning in Big Data : bridging data-adaptive estimation and statistical inference

Résumé : Cette thèse porte sur le développement de méthodes semi-paramétriques robustes pour l'inférence de paramètres complexes émergeant à l'interface de l'inférence causale et la biostatistique. Ses motivations sont les applications à la recherche épidémiologique et médicale à l'ère des Big Data. Nous abordons plus particulièrement deux défis statistiques pour réconcilier, dans chaque contexte, estimation adaptative et inférence statistique. Le premier défi concerne la maximisation de l'information tirée d'essais contrôlés randomisés (ECRs) grâce à la conception d'essais adaptatifs. Nous présentons un cadre théorique pour la construction et l'analyse d'ECRs groupes-séquentiels, réponses-adaptatifs et ajustés aux covariable (traduction de l'expression anglaise « group-sequential, response-adaptive, covariate-adjusted », d'où l'acronyme CARA) qui permettent le recours à des procédures adaptatives d'estimation à la fois pour la construction dynamique des schémas de randomisation et pour l'estimation du modèle de réponse conditionnelle. Ce cadre enrichit la littérature existante sur les ECRs CARA notamment parce que l'estimation des effets est garantie robuste même lorsque les modèles sur lesquels s'appuient les procédures adaptatives d'estimation sont mal spécificiés. Le second défi concerne la mise au point et l'étude asymptotique d'une procédure inférentielle semi-paramétrique avec estimation adaptative des paramètres de nuisance. A titre d'exemple, nous choisissons comme paramètre d'intérêt la différence des risques marginaux pour un traitement binaire. Nous proposons une version cross-validée du principe d'inférence par minimisation ciblée de pertes (« Cross-validated Targeted Mimum Loss Estimation » en anglais, d'où l'acronyme CV-TMLE) qui, comme son nom le suggère, marie la procédure TMLE classique et le principe de la validation croisée. L'estimateur CV-TMLE ainsi élaboré hérite de la propriété typique de double-robustesse et aussi des propriétés d'efficacité du TMLE classique. De façon remarquable, le CV-TMLE est linéairement asymptotique sous des conditions minimales, sans recourir aux conditions de type Donsker.
Document type :
Theses
Complete list of metadatas

Cited literature [51 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-01730786
Contributor : Abes Star :  Contact
Submitted on : Tuesday, March 13, 2018 - 3:46:07 PM
Last modification on : Saturday, April 11, 2020 - 1:54:10 AM
Document(s) archivé(s) le : Thursday, June 14, 2018 - 3:55:20 PM

File

va_zheng_wenjing.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-01730786, version 1

Collections

Citation

Wenjing Zheng. Targeted learning in Big Data : bridging data-adaptive estimation and statistical inference. General Mathematics [math.GM]. Université Sorbonne Paris Cité, 2016. English. ⟨NNT : 2016USPCB044⟩. ⟨tel-01730786⟩

Share

Metrics

Record views

141

Files downloads

149