Contributions de l'apprentissage statistique aux méthodes GLMM et LASSO: Application à la modélisation statistique de la morbidité liée au paludisme à Tori-Bossito (Bénin)

Résumé : L'objectif principal de cette thèse est la détermination des facteurs environnementaux pouvant expliquer la variabilité de la densité anophélienne et la prédiction du risque d'exposition au vecteur palustre au niveau village et maison de la zone de Tori-Bossito. Dans ce travail, nous avons considéré ces deux problèmes comme des problèmes de séection de variables et de prédiction dans le contexte épidémiologique. L'objectif principal est alors de sélectionner un sous ensemble optimal de variables pertinentes pour la prédiction du risque d'exposition au vecteur palustre dans le milieu d'étude ainsi que dans un autre milieu où les données entomologiques ne sont pas disponibles. Dans la première partie de cette Thèse, nous avons proposé une méthode basée sur un algorithme de type GLMM combiné avec une sélection de variables de type backward. Des effets aléatoires ont été mis au niveau de chaque hiérarchie des données pour prendre en compte les possibles corrélations à cause de la structure hiérarchique des données. Les résultats ont permis de déterminer un sous ensemble optimal pour la prédiction du risque palustre. Ces algorithmes deviennent non convergents lorsque les données possèdent une structure particulière ou sont très correlées. Dans la seconde partie de cette Thèse, nous avons donc proposé une méthode d'apprentissage machine automatique. Cette méthode combine le GLM, le Lasso et une validation croisée stratifiée à deux niveaux. Nous avons généré automatiquement les interactions entre les variables. La sélection de variables a été faite par la combinaison GLM, Lasso et validation croisée. Les variables sélectionnées sont débiaisées par le GLM pour faire de la prédiction. Les résultats obtenus montrent que les pré-traitements effectués par les experts sur les données peuvent être surmontés. Aussi, ces résultats montrent une amélioration au niveau de la sélection, de la sparsité du sous ensemble optimal pour la prédiction, la qualité des prédictions et le temps CPU d'exécution des calculs. %Dans la troisième partie de cette Thèse, nous avons proposé une autre méthode %d'apprentissage machine automatique %basée sur les arbres de régression et les forêts %aléatoires combinés avec la %validation croisée stratifiée à deux niveaux. %Cet algorithme utilise un seuil minimum d'importance de variables déterminé par la distance quadratique %entre les importances de variables, %et la fréquence d'importance de %ces variables. % Les résultats obtenus montrent une nouvelle %amélioration au niveau de la %sparsité du sous ensemble optimal pour la prédiction, %la qualité des prédicteurs et des prédictions ainsi %que la vitesse d'exécution des calculs. Finalement, le meilleur sous ensemble de prédiction comporte Saison, interaction entre Quantité moyenne de pluie et Ouvertures, interaction entre Jours de pluie avant la mission et Nombre d'habitants, interaction entre Jours de pluie pendant la mission et Végétation.
Type de document :
Thèse
Statistiques [math.ST]. Université d'Abomey-Calavi (Bénin), 2018. Français
Liste complète des métadonnées

Littérature citée [105 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/tel-01736933
Contributeur : Bienvenue Kouwaye <>
Soumis le : dimanche 18 mars 2018 - 23:48:37
Dernière modification le : mercredi 23 janvier 2019 - 09:58:15
Document(s) archivé(s) le : mardi 11 septembre 2018 - 08:53:09

Fichier

KOUWAYE_these.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01736933, version 1

Collections

Citation

Bienvenue Kouwaye. Contributions de l'apprentissage statistique aux méthodes GLMM et LASSO: Application à la modélisation statistique de la morbidité liée au paludisme à Tori-Bossito (Bénin). Statistiques [math.ST]. Université d'Abomey-Calavi (Bénin), 2018. Français. 〈tel-01736933〉

Partager

Métriques

Consultations de la notice

182

Téléchargements de fichiers

163