Statistical learning in high dimensions : a rigorous statistical physics approach - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Statistical learning in high dimensions : a rigorous statistical physics approach

Apprentissage statistique en grandes dimensions : une approche rigoureuse par la physique statistique

Cédric Gerbelot
  • Fonction : Auteur
  • PersonId : 1281547
  • IdRef : 271799307

Résumé

The recent empirical success of machine learning in all fields involving data analysis has prompted the need for a quantitative theory that goes beyond classical statistics. In this regard, the field of statistical physics of disordered systems proposes a rich literature in the asymptotically exact study of high-dimensional random systems. Although they are efficient, many of the tools found in statistical physics are non-rigorous and the models they are applied to lack links with realistic machine learning scenarios. This motivates the introduction of models with structured data and learning methods that are closer to the state of the art, as well as the extension of existing proof methods to those problems. With this goal in mind, the present work deals with the mathematical properties of a family of implicit functions of large random matrices encountered in supervised learning and inference, notably in the context of convex empirical risk minimization. We first establish an extension of existing concentration results for the dynamics of approximate message passing algorithms, and illustrate this theory on inference in probabilistic models with multilayer random convolutional generative priors. We also show how related ideas enable to obtain the high-dimensional dynamics of stochastic gradient descent with random data. We then use those results to study the statistical behaviour of a family of convex generalised linear models under the random design hypothesis including feature maps and data models going beyond the i.i.d. Gaussian setting, ensembling of predictors, multiclass problems and different regularisations. We also show numerically that for a wide range of tasks and realistic feature maps, the learning curves obtained from the theoretical prediction corresponding to the synthetic Gaussian models with matching covariances exactly capture those of the original problems. The proof methods are based on the elements of probability theory inspired by the statistical physics of spin glasses, optimization and convex analysis.
Les succès pratiques récents de l'apprentissage automatique dans toutes les tâches qui impliquent de l'analyse de données ont provoqué le besoin d'une théorie allant au-delà des statistiques classiques. À cet égard, le domaine de la physique statistique des milieux désordonnés propose une littérature conséquente dans l'analyse asymptotique exacte de systèmes aléatoires en grandes dimensions. Bien qu'ils soient efficaces, de nombreux outils issus de la physique statistique ne sont pas rigoureux et les modèles auxquels ils sont appliqués manquent de liens avec des scénarios réalistes d'apprentissage statistique. Cela motive l'introduction de modèles avec des données structurées et des méthodes d'apprentissage plus proches de l'état de l'art, ainsi que l'extension des méthodes de preuves existantes à ces problèmes. Cette thèse s'intéresse donc aux propriétés mathématiques d'une famille de fonctions implicites de grandes matrices aléatoires rencontrées en apprentissage supervisé ainsi qu'en inférence, notamment dans le contexte de la minimisation de risque empirique convexe. Nous établissons tout d'abord une extension des résultats de concentration existants pour la dynamique d'algorithmes de passage de messages approximés, et illustrons cette théorie sur des problèmes d'inférences dans des modèles probabilistes génératifs convolutionnels multicouches. Nous montrons également que des méthodes de preuves similaires permettent d'obtenir des résultats asymptotiques pour la dynamique de la descente de gradient stochastique avec des données aléatoires. Nous utilisons ensuite ces résultats pour étudier le comportement statistique d'une famille de modèles linéaires généralisés convexes sous l'hypothèse de données aléatoires qui incluent des transformations de prédicteurs et de données allant au-delà de l'hypothèse i.i.d. Gaussienne, l'agrégation de prédicteurs, les problèmes multiclasses, et différentes régularisations. Les évaluations numériques des formules établies montrent que, pour de nombreux modèles et tâches d'apprentissage, les courbes de performance obtenues par les prédictions théoriques correspondant à des modèles synthétiques Gaussiens corrélés dont les matrices de covariance sont celles des données empiriques, capturent exactement les courbes des problèmes réels. Les méthodes de preuve sont basées sur les éléments de théorie des probabilités inspirés de la physique statistique des verres de spin, l'optimisation et l'analyse convexe.
Fichier principal
Vignette du fichier
Gerbelot_2022_These.pdf (9.17 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04199403 , version 1 (07-09-2023)

Identifiants

  • HAL Id : tel-04199403 , version 1

Citer

Cédric Gerbelot. Statistical learning in high dimensions : a rigorous statistical physics approach. Mathematical Physics [math-ph]. Université Paris sciences et lettres, 2022. English. ⟨NNT : 2022UPSLE006⟩. ⟨tel-04199403⟩
100 Consultations
58 Téléchargements

Partager

Gmail Facebook X LinkedIn More