Skip to Main content Skip to Navigation
Theses

Contributions de l'apprentissage statistique aux méthodes GLMM et LASSO: Application à la modélisation statistique de la morbidité liée au paludisme à Tori-Bossito (Bénin)

Résumé : L'objectif principal de cette thèse est la détermination des facteurs environnementaux pouvant expliquer la variabilité de la densité anophélienne et la prédiction du risque d'exposition au vecteur palustre au niveau village et maison de la zone de Tori-Bossito. Dans ce travail, nous avons considéré ces deux problèmes comme des problèmes de séection de variables et de prédiction dans le contexte épidémiologique. L'objectif principal est alors de sélectionner un sous ensemble optimal de variables pertinentes pour la prédiction du risque d'exposition au vecteur palustre dans le milieu d'étude ainsi que dans un autre milieu où les données entomologiques ne sont pas disponibles. Dans la première partie de cette Thèse, nous avons proposé une méthode basée sur un algorithme de type GLMM combiné avec une sélection de variables de type backward. Des effets aléatoires ont été mis au niveau de chaque hiérarchie des données pour prendre en compte les possibles corrélations à cause de la structure hiérarchique des données. Les résultats ont permis de déterminer un sous ensemble optimal pour la prédiction du risque palustre. Ces algorithmes deviennent non convergents lorsque les données possèdent une structure particulière ou sont très correlées. Dans la seconde partie de cette Thèse, nous avons donc proposé une méthode d'apprentissage machine automatique. Cette méthode combine le GLM, le Lasso et une validation croisée stratifiée à deux niveaux. Nous avons généré automatiquement les interactions entre les variables. La sélection de variables a été faite par la combinaison GLM, Lasso et validation croisée. Les variables sélectionnées sont débiaisées par le GLM pour faire de la prédiction. Les résultats obtenus montrent que les pré-traitements effectués par les experts sur les données peuvent être surmontés. Aussi, ces résultats montrent une amélioration au niveau de la sélection, de la sparsité du sous ensemble optimal pour la prédiction, la qualité des prédictions et le temps CPU d'exécution des calculs. %Dans la troisième partie de cette Thèse, nous avons proposé une autre méthode %d'apprentissage machine automatique %basée sur les arbres de régression et les forêts %aléatoires combinés avec la %validation croisée stratifiée à deux niveaux. %Cet algorithme utilise un seuil minimum d'importance de variables déterminé par la distance quadratique %entre les importances de variables, %et la fréquence d'importance de %ces variables. % Les résultats obtenus montrent une nouvelle %amélioration au niveau de la %sparsité du sous ensemble optimal pour la prédiction, %la qualité des prédicteurs et des prédictions ainsi %que la vitesse d'exécution des calculs. Finalement, le meilleur sous ensemble de prédiction comporte Saison, interaction entre Quantité moyenne de pluie et Ouvertures, interaction entre Jours de pluie avant la mission et Nombre d'habitants, interaction entre Jours de pluie pendant la mission et Végétation.
Complete list of metadatas

Cited literature [105 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/tel-01736933
Contributor : Bienvenue Kouwaye <>
Submitted on : Sunday, March 18, 2018 - 11:48:37 PM
Last modification on : Sunday, January 19, 2020 - 6:38:32 PM
Document(s) archivé(s) le : Tuesday, September 11, 2018 - 8:53:09 AM

File

KOUWAYE_these.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-01736933, version 1

Collections

Citation

Bienvenue Kouwaye. Contributions de l'apprentissage statistique aux méthodes GLMM et LASSO: Application à la modélisation statistique de la morbidité liée au paludisme à Tori-Bossito (Bénin). Statistiques [math.ST]. Université d'Abomey-Calavi (Bénin), 2018. Français. ⟨tel-01736933⟩

Share

Metrics

Record views

319

Files downloads

388