login
english version rss feed
Detailed view PhD thesis
Université Paris Sud - Paris XI (05/12/2005), Jean-Michel POGGI (Dir.)
Attached file list to this document: 
PS
these_tuleau.ps(2.1 MB)
PDF
these_tuleau.pdf(1.2 MB)
SELECTION DE VARIABLES POUR LA DISCRIMINATION EN GRANDE DIMENSION ET CLASSIFICATION DE DONNEES FONCTIONNELLES
Christine Tuleau1, 2

Cette thèse s'inscrit dans le cadre de la statistique non paramétrique et porte sur la classification et la discrimination en grande dimension, et plus particulièrement sur la sélection de variables. Une première partie traite de la sélection de variables à travers CART, dans un cadre de régression et de classification binaire. La procédure exhaustive développée s'appuie sur le principe de la sélection de modèle qui permet d'obtenir des inégalités ``oracle'' et de réaliser la sélection de variables par contraste pénalisé. Une seconde partie est motivée par un problème industriel. Il s'agit de déterminer parmi les signaux temporels, mesurés au cours d'essais, ceux capables d'expliquer le ressenti de confort du conducteur, puis d'identifier les pages temporelles responsables de cette pertinence. La démarche adoptée s'articule autour du prétraitement des signaux, de la réduction de la dimension par projection dans une base d'ondelettes commune, et de la sélection de variables en mêlant CART et une stratégie pas à pas. Une dernière partie aborde le thème de la classification de données fonctionnelles au moyen des k-plus proches voisins. La procédure consiste à appliquer les k-plus proches voisins sur les coordonnées de la projection des données dans un espace fini dimensionnel. Cette procédure implique de déterminer simultanément la dimension de l'espace de projection et le nombre de voisins. La version usuelle des k-plus proches voisins et une version légèrement pénalisée sont considérées théoriquement. Un travail sur données réelles et simulées semble montrer qu'un faible terme de pénalité stabilise la sélection en conservant de bonnes performances.
1:  LM-Orsay - Laboratoire de Mathématiques d'Orsay
2:  MODAL'X - Modélisation aléatoire de Paris X
sélection de variables – sélection de modèle – pénalisation – ondelettes – CART – données fonctionnelles – classification – k-plus proches voisins

This thesis deals with non parametric statistics and is related to classification and discrimination in high dimension, and more particularly on variable selection. A first part is devoted to variable selection through CART, both on the regression and binary classification frameworks. The proposed exhaustive procedure is based on model selection which leads to ``oracle'' inequalities and allows to perform variable selection by penalized empirical contrast. A second part is motivated by an industrial problem. Il consists of determining among the temporal signals, measured during experiments, those able to explain the subjective drivability, and then to define the ranges responsible for this relevance. The adopted methodology is articulated around the preprocessing of the signals, dimensionality reduction by compression using a common wavelet basis and selection of useful variables involving CART and a strategy step by step. A last part deals with functional data classification with the k-nearest neighbors. The procedure consists of applying k-nearest neighbors on the coordinates of the projection of the data on a suitable chosen finite dimensional space. The procedure involves selecting simultaneously the space dimension and the number of neighbors. The traditional version of k-nearest neighbors and a slightly penalized version are theoretically considered. A study on real and simulated data shows that the introduction of a small penalty term stabilizes the selection while preserving good performance.
variable selection – model selection – penalization – wavelets – CART – functional data – classification – k-nearest neighbors

all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...
all articles on CCSd database...