Semi-parametric mixture models and applications to multiple testing

Résumé : Dans un contexte de test multiple, nous considérons un modèle de mélange semi-paramétrique avec deux composantes. Une composante est supposée connue et correspond à la distribution des p-valeurs sous hypothèse nulle avec probabilité a priori p. L'autre composante f est nonparamétrique et représente la distribution des p-valeurs sous l'hypothèse alternative. Le problème d'estimer les paramètres p et f du modèle apparaît dans les procédures de contrôle du taux de faux positifs (``false discovery rate'' ou FDR). Dans la première partie de cette dissertation, nous étudions l'estimation de la proportion p. Nous discutons de résultats d'efficacité asymptotique et établissons que deux cas différents arrivent suivant que f s'annule ou non surtout un intervalle non-vide. Dans le premier cas (annulation surtout un intervalle), nous présentons des estimateurs qui convergent \`{a} la vitesse paramétrique, calculons la variance asymptotique optimale et conjecturons qu'aucun estimateur n'est asymptotiquement efficace (i.e atteint la variance asymptotique optimale). Dans le deuxième cas, nous prouvons que le risque quadratique de n'importe quel estimateur ne converge pas à la vitesse paramétrique. Dans la deuxième partie de la dissertation, nous nous concentrons sur l'estimation de la composante inconnue nonparamétrique f dans le mélange, en comptant sur un estimateur préliminaire de p. Nous proposons et étudions les propriétés asymptotiques de deux estimateurs différents pour cette composante inconnue. Le premier estimateur est un estimateur à noyau avec poids aléatoires. Nous établissons une borne supérieure pour son risque quadratique ponctuel, en montrant une vitesse de convergence nonparamétrique classique sur une classe de Holder. Le deuxième estimateur est un estimateur du maximum de vraisemblance régularisée. Il est calculé par un algorithme itératif, pour lequel nous établissons une propriété de décroissance d'un critère. De plus, ces estimateurs sont utilisés dans une procédure de test multiple pour estimer le taux local de faux positifs (``local false discovery rate'' ou lfdr).
Type de document :
Thèse
General Mathematics [math.GM]. Université Paris Sud - Paris XI, 2013. English. 〈NNT : 2013PA112196〉
Liste complète des métadonnées

Littérature citée [19 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00987035
Contributeur : Abes Star <>
Soumis le : lundi 12 mai 2014 - 12:39:10
Dernière modification le : jeudi 11 janvier 2018 - 06:12:18
Document(s) archivé(s) le : mardi 12 août 2014 - 10:50:11

Identifiants

  • HAL Id : tel-00987035, version 1

Collections

Citation

Van Hanh Nguyen. Semi-parametric mixture models and applications to multiple testing. General Mathematics [math.GM]. Université Paris Sud - Paris XI, 2013. English. 〈NNT : 2013PA112196〉. 〈tel-00987035〉

Partager

Métriques

Consultations de la notice

280

Téléchargements de fichiers

427