Sélection de variable : structure génétique d'une population et transmission de Plasmodium à travers le moustique.

Résumé : Dans cette thèse, nous considérons la question de sélection de variable dans deux deux problèmes pratiques. Le premier concerne une préoccupation très récurrente en génétique des populations qui consiste à regrouper les individus d'un échantillon d'organismes vivants dans des classes génétiquement homogènes sur la base d'informations procurées par un certain nombre de marqueurs génétiques. Nous supposons ne disposer d'aucune information à priori sur la population cible : il s'agit alors d'un problème de classification non supervisée. Par ailleurs, certaines variables peuvent ajouter du bruit à la classification. Nous proposons de résoudre simultanément le problème de sélection de variable et celui de sélection du nombre de composants du mélange dans une procédure de sélection de modèle. La sélection est ensuite faite via pénalisation du maximum de vraisemblance pénalisé. Sous des hypothèses faibles sur la fonction de pénalité, nous montrons que la procédure de sélection est consistance. Nous construisons ensuite une fonction de pénalité garantissant une inégalité oracle non-asymptotique. Bien que ce deuxième résultat ne soit pas directement utilisable, il suggère une pénalité de la forme du produit de la dimension des modèles en compétition et d'un paramètre données-dépendant que nous calibrons grâce à l'heuristique de la pente. Nous montrons sur des données simulées que cette calibration répond en partie au problème du choix du critère de sélection en fonction de la taille de l'échantillon. Le deuxième problème est motivé par le contrôle de la transmission de Plasmodium à travers son vecteur moustique. Nous disposons de données décrites par des variables diverses dont le nombre est de l'ordre de la taille de l'échantillon. Nous appliquons tout d'abord une procédure de sélection de variable qui repose sur l'importance des variables obtenues des forêts aléatoires. Les variables sélectionnées sont ensuite évaluées dans le modèle binomial négatif modifié en zéro.
Type de document :
Thèse
Mathématiques [math]. Université Paris Sud - Paris XI, 2010. Français
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00553674
Contributeur : Wilson Toussile <>
Soumis le : vendredi 7 janvier 2011 - 22:35:16
Dernière modification le : jeudi 9 février 2017 - 16:00:59
Document(s) archivé(s) le : vendredi 8 avril 2011 - 03:34:18

Identifiants

  • HAL Id : tel-00553674, version 1

Citation

Wilson Toussile. Sélection de variable : structure génétique d'une population et transmission de Plasmodium à travers le moustique.. Mathématiques [math]. Université Paris Sud - Paris XI, 2010. Français. <tel-00553674>

Partager

Métriques

Consultations de
la notice

673

Téléchargements du document

584