Quelques questions de sélection de variables autour de l'estimateur LASSO - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2009

Some variable selection procedures based on the LASSO estimator

Quelques questions de sélection de variables autour de l'estimateur LASSO

Résumé

In this thesis, we consider the linear regression model in the high dimensional setup. In particular, estimation methods which exploit the sparsity of the model are studied even when the dimension is larger than the sample size. The ℓ1 penalized least square estimator, also known as the LASSO, is a popular method in such a framework which succeeds in providing sparse estimators. The contributions of the thesis concern extensions of the LASSO which take into account either additional information on the entries, or a semi-supervised data acquisition mode. More precisely, the questions considered in this work are : i) the estimation of the regression parameter when correlation or other structures may exist between the variables (presence of correlations, order structure on the variables or grouping of variables) ; ii) the construction of estimators adapted to the transductive setting. These extensions are derived from a modification of the penalty term in the definition of the LASSO. The performance of the methods is theoretically explored from a non-asymptotic point of view; we prove that the estimators satisfy Sparsity Oracle Inequalities. Moreover variable selection consistency is also established. Furthermore, the practical performance of these procedures is illustrated through numerical experiments on simulated datasets.
Le problème général étudié dans cette thèse est celui de la régression linéaire en grande dimension. On s'intéresse particulièrement aux méthodes d'estimation qui capturent la sparsité du paramètre cible, même dans le cas où la dimension est supérieure au nombre d'observations. Une méthode populaire pour estimer le paramètre inconnu de la régression dans ce contexte est l'estimateur des moindres carrés pénalisés par la norme ℓ1 des coefficients, connu sous le nom de LASSO. Les contributions de la thèse portent sur l'étude de variantes de l'estimateur LASSO pour prendre en compte soit des informations supplémentaires sur les variables d'entrée, soit des modes semi-supervisés d'acquisition des données. Plus précisément, les questions abordées dans ce travail sont : i) l'estimation du paramètre inconnu lorsque l'espace des variables explicatives a une structure bien déterminée (présence de corrélations, structure d'ordre sur les variables ou regroupements entre variables) ; ii) la construction d'estimateurs adaptés au cadre transductif, pour lequel les nouvelles observations non étiquetées sont prises en considération. Ces adaptations sont en partie déduites par une modification de la pénalité dans la définition de l'estimateur LASSO. Les procédures introduites sont essentiellement analysées d'un point de vue non-asymptotique ; nous prouvons notamment que les estimateurs construits vérifient des Inégalités de Sparsité Oracles. Ces inégalités ont pour particularité de dépendre du nombre de composantes non-nulles du paramètre cible. Un contrôle sur la probabilité d'erreur d'estimation du support du paramètre de régression est également établi. Les performances pratiques des méthodes étudiées sont par ailleurs illustrées à travers des résultats de simulation.
Fichier principal
Vignette du fichier
TheseHebiri.pdf (1.59 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00408737 , version 1 (02-08-2009)

Identifiants

  • HAL Id : tel-00408737 , version 1

Citer

Mohamed Hebiri. Quelques questions de sélection de variables autour de l'estimateur LASSO. Mathématiques [math]. Université Paris-Diderot - Paris VII, 2009. Français. ⟨NNT : ⟩. ⟨tel-00408737⟩
593 Consultations
4638 Téléchargements

Partager

Gmail Facebook X LinkedIn More