Rééchantillonnage et Sélection de modèles

Sylvain Arlot

Thèse Année : 2007

Resampling and Model selection

Rééchantillonnage et Sélection de modèles

(1, 2)

1
2

Sylvain Arlot

Fonction : Auteur
PersonId : 1608
IdHAL : sylvain-arlot
IdRef : 124609589

Laboratoire de Mathématiques d'Orsay

Model selection in statistical learning

Résumé

This thesis takes place within the theories of non-parametric statistics and statistical learning. Its goal is to provide an accurate understanding of several resampling or model selection methods, from the non-asymptotic viewpoint.

The main advance in this thesis consists in the accurate calibration of model selection procedures, in order to make them optimal in practice for prediction. We study V-fold cross-validation (very commonly used, but badly known in theory, in particular for the question of choosing V) and several penalization procedures. We propose methods for calibrating accurately some penalties, for both their general shape and the multiplicative constants. The use of resampling allows to solve hard problems, in particular regression with a variable noise-level. We prove non-asymptotic theoretical results on these methods, such as oracle inequalities and adaptivity properties. These results rely in particular on some concentration inequalities.

We also consider the problem of confidence regions and multiple testing, when the data are high-dimensional, with general and unknown correlations. Using resampling methods, we can get rid of the curse of dimensionality, and "learn" these correlations. We mainly propose two procedures, and prove for both a non-asymptotic control of their level.

Cette thèse s'inscrit dans les domaines de la statistique non-paramétrique et de la théorie statistique de l'apprentissage. Son objet est la compréhension fine de certaines méthodes de rééchantillonnage ou de sélection de modèles, du point de vue non-asymptotique.

La majeure partie de ce travail de thèse consiste dans la calibration précise de méthodes de sélection de modèles optimales en pratique, pour le problème de la prédiction. Nous étudions la validation croisée V-fold (très couramment utilisée, mais mal comprise en théorie, notamment pour ce qui est de choisir V) et plusieurs méthodes de pénalisation. Nous proposons des méthodes de calibration précise de pénalités, aussi bien pour ce qui est de leur forme générale que des constantes multiplicatives. L'utilisation du rééchantillonnage permet de résoudre des problèmes difficiles, notamment celui de la régression avec un niveau de bruit variable. Nous validons théoriquement ces méthodes du point de vue non-asymptotique, en prouvant des inégalités oracle et des propriétés d'adaptation. Ces résultats reposent entre autres sur des inégalités de concentration.

Un second problème que nous abordons est celui des régions de confiance et des tests multiples, lorsque l'on dispose d'observations de grande dimension, présentant des corrélations générales et inconnues. L'utilisation de méthodes de rééchantillonnage permet de s'affranchir du fléau de la dimension, et d'"apprendre" ces corrélations. Nous proposons principalement deux méthodes, et prouvons pour chacune un contrôle non-asymptotique de leur niveau.

Mots clés

non-parametric statistics statistical learning resampling non-asymptotic V-fold cross-validation model selection penalization nonparametric regression adaptivity heteroscedastic confidence regions multiple testing

pénalisation régression non-paramétrique adaptation hétéroscédastique régions de confiance tests multiples statistique non-paramétrique apprentissage statistique rééchantillonnage non-asymptotique validation croisée V-fold bootstrap sélection de modèles

Domaines

Mathématiques [math]

Fichier principal

manuscrit_these_definitif.pdf (2.4 Mo)

071213_soutenance.pdf (4.4 Mo)

Format : Autre

Sylvain Arlot : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00198803

Soumis le : lundi 17 décembre 2007-23:10:00

Dernière modification le : vendredi 19 avril 2024-09:53:22

Archivage à long terme le : lundi 12 avril 2010-08:15:52

Dates et versions

tel-00198803 , version 1 (17-12-2007)

Identifiants

HAL Id : tel-00198803 , version 1

Citer

Sylvain Arlot. Rééchantillonnage et Sélection de modèles. Mathématiques [math]. Université Paris Sud - Paris XI, 2007. Français. ⟨NNT : ⟩. ⟨tel-00198803⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA LM-ORSAY LM-ORSAY-THESES INRIA2 UNIV-PARIS-SACLAY GS-MATHEMATIQUES

1152 Consultations

463 Téléchargements

Resampling and Model selection

Rééchantillonnage et Sélection de modèles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager