Learning with random forests

Résumé : Cette thèse est consacrée aux forêts aléatoires, une méthode d'apprentissage non paramétrique introduite par Breiman en 2001. Très répandues dans le monde des applications, les forêts aléatoires possèdent de bonnes performances et permettent de traiter efficacement de grands volumes de données. Cependant, la théorie des forêts ne permet pas d'expliquer à ce jour l'ensemble des bonnes propriétés de l'algorithme. Après avoir dressé un état de l'art des résultats théoriques existants, nous nous intéressons en premier lieu au lien entre les forêts infinies (analysées en théorie) et les forêts finies (utilisées en pratique). Nous proposons en particulier une manière de choisir le nombre d'arbres pour que les erreurs des forêts finies et infinies soient proches. D'autre part, nous étudions les forêts quantiles, un type d'algorithme proche des forêts de Breiman. Dans ce cadre, nous démontrons l'intérêt d'agréger des arbres : même si chaque arbre de la forêt quantile est inconsistant, grâce à un sous-échantillonnage adapté, la forêt quantile est consistante. Dans un deuxième temps, nous prouvons que les forêts aléatoires sont naturellement liées à des estimateurs à noyau que nous explicitons. Des bornes sur la vitesse de convergence de ces estimateurs sont également établies. Nous démontrons, dans une troisième approche, deux théorèmes sur la consistance des forêts de Breiman élaguées et complètement développées. Dans ce dernier cas, nous soulignons, comme pour les forêts quantiles, l'importance du sous-échantillonnage dans la consistance de la forêt. Enfin, nous présentons un travail indépendant portant sur l'estimation de la toxicité de certains composés chimiques.
Type de document :
Thèse
Statistics [math.ST]. Université Pierre et Marie Curie - Paris VI, 2015. English. 〈NNT : 2015PA066533〉
Liste complète des métadonnées

Littérature citée [120 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01250221
Contributeur : Abes Star <>
Soumis le : vendredi 20 mai 2016 - 10:40:55
Dernière modification le : vendredi 22 mars 2019 - 01:30:09

Fichier

2015PA066533.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01250221, version 2

Citation

Erwan Scornet. Learning with random forests. Statistics [math.ST]. Université Pierre et Marie Curie - Paris VI, 2015. English. 〈NNT : 2015PA066533〉. 〈tel-01250221v2〉

Partager

Métriques

Consultations de la notice

719

Téléchargements de fichiers

1042