Skip to Main content Skip to Navigation
Theses

Methods of random matrices for large dimensional statistical learning

Résumé : Le défi du BigData entraîne un besoin pour les algorithmes d'apprentissage automatisé de s'adapter aux données de grande dimension et de devenir plus efficace. Récemment, une nouvelle direction de recherche est apparue qui consiste à analyser les méthodes d’apprentissage dans le régime moderne où le nombre n et la dimension p des données sont grands et du même ordre. Par rapport au régime conventionnel où n>>p, le régime avec n,p sont grands et comparables est particulièrement intéressant, car les performances d’apprentissage dans ce régime restent sensibles à l’ajustement des hyperparamètres, ouvrant ainsi une voie à la compréhension et à l’amélioration des techniques d’apprentissage pour ces données de grande dimension.L'approche technique de cette thèse s'appuie sur des outils avancés de statistiques de grande dimension, nous permettant de mener des analyses allant au-delà de l'état de l’art. La première partie de la thèse est consacrée à l'étude de l'apprentissage semi-supervisé sur des grandes données. Motivés par nos résultats théoriques, nous proposons une alternative supérieure à la méthode semi-supervisée de régularisation laplacienne. Les méthodes avec solutions implicites, comme les SVMs et la régression logistique, sont ensuite étudiées sous des modèles de mélanges réalistes, fournissant des détails exhaustifs sur le mécanisme d'apprentissage. Plusieurs conséquences importantes sont ainsi révélées, dont certaines sont même en contradiction avec la croyance commune.
Document type :
Theses
Complete list of metadatas

Cited literature [98 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02418282
Contributor : Abes Star :  Contact
Submitted on : Wednesday, December 18, 2019 - 4:25:11 PM
Last modification on : Friday, April 10, 2020 - 2:10:53 AM
Document(s) archivé(s) le : Thursday, March 19, 2020 - 9:39:01 PM

File

80983_MAI_2019_diffusion.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-02418282, version 1

Citation

Xiaoyi Mai. Methods of random matrices for large dimensional statistical learning. Automatic. Université Paris-Saclay, 2019. English. ⟨NNT : 2019SACLC078⟩. ⟨tel-02418282⟩

Share

Metrics

Record views

485

Files downloads

613