Méthodes régularisées pour l’analyse de données multivariées en grande dimension : théorie et applications. - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2019

Regularized methods to study multivariate data in high dimensional settings : theory and applications.

Méthodes régularisées pour l’analyse de données multivariées en grande dimension : théorie et applications.

Résumé

In this PhD thesis we study general linear model (multivariate linearmodel) in high dimensional settings. We propose a novel variable selection approach in the framework of multivariate linear models taking into account the dependence that may exist between the responses. It consists in estimating beforehand the covariance matrix of the responses and to plug this estimator in a Lasso criterion, in order to obtain a sparse estimator of the coefficient matrix. The properties of our approach are investigated both from a theoretical and a numerical point of view. More precisely, we give general conditions that the estimators of the covariance matrix and its inverse have to satisfy in order to recover the positions of the zero and non-zero entries of the coefficient matrix when the number of responses is not fixed and can tend to infinity. We also propose novel, efficient and fully data-driven approaches for estimating Toeplitz and large block structured sparse covariance matrices in the case where the number of variables is much larger than the number of samples without limiting ourselves to block diagonal matrices. These approaches are appliedto different biological issues in metabolomics, in proteomics and in immunology.
Dans cette thèse nous nous intéressons au modèle linéaire général (modèle linéaire multivarié) en grande dimension. Nous proposons un nouvel estimateur parcimonieux des coefficients de ce modèle qui prend en compte la dépendance qui peut exister entre les différentes réponses. Cet estimateur est obtenu en estimant dans un premier temps la matrice de covariance des réponses puis en incluant cette matrice de covariance dans un critère Lasso. Les propriétés théoriques de cet estimateur sont étudiées lorsque le nombre de réponses peut tendre vers l’infini plus vite que la taille de l’échantillon. Plus précisément, nous proposons des conditions générales que doivent satisfaire les estimateurs de la matrice de covariance et de son inverse pour obtenir la consistance en signe des coefficients. Nous avons ensuite mis en place des méthodes, adaptées à la grande dimension, pour l’estimation de matrices de covariance qui sont supposées être des matrices de Toeplitz ou des matrices avec une structure par blocs, pas nécessairement diagonaux. Ces différentes méthodes ont enfin été appliquées à des problématiques de métabolomique, de protéomique et d’immunologie.
Fichier principal
Vignette du fichier
80342_PERROT_2019_archivage.pdf (9.23 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02384541 , version 1 (28-11-2019)

Identifiants

  • HAL Id : tel-02384541 , version 1

Citer

Marie Perrot-Dockès Perrot-Dockès. Méthodes régularisées pour l’analyse de données multivariées en grande dimension : théorie et applications.. Applications [stat.AP]. Université Paris Saclay (COmUE), 2019. Français. ⟨NNT : 2019SACLS304⟩. ⟨tel-02384541⟩
440 Consultations
252 Téléchargements

Partager

Gmail Facebook X LinkedIn More