Rééchantillonnage et Sélection de modèles

Sylvain Arlot 1, 2
2 SELECT - Model selection in statistical learning
Inria Saclay - Ile de France, LMO - Laboratoire de Mathématiques d'Orsay, CNRS - Centre National de la Recherche Scientifique : UMR
Résumé : Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique.

La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.

Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau.
Type de document :
Thèse
Mathématiques [math]. Université Paris Sud - Paris XI, 2007. Français
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00198803
Contributeur : Sylvain Arlot <>
Soumis le : lundi 17 décembre 2007 - 23:10:00
Dernière modification le : jeudi 9 février 2017 - 15:53:39
Document(s) archivé(s) le : lundi 12 avril 2010 - 08:15:52

Identifiants

  • HAL Id : tel-00198803, version 1

Collections

Citation

Sylvain Arlot. Rééchantillonnage et Sélection de modèles. Mathématiques [math]. Université Paris Sud - Paris XI, 2007. Français. <tel-00198803>

Partager

Métriques

Consultations de
la notice

858

Téléchargements du document

393