Random Matrix Theory for AI : From Theory to Practice - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Random Matrix Theory for AI : From Theory to Practice

La théorie des matrices aléatoires pour l'IA : de la théorie à la pratique

Résumé

AI nowadays relies largely on using large data and enhanced machine learning methods which consist in developing classification and inference algorithms leveraging large datasets of large sizes. These large dimensions induce many counter-intuitive phenomena, leading generally to a misunderstanding of the behavior of many machine learning algorithms often designed with small data dimension intuitions. By taking advantage of (rather than suffering from) the multidimensional setting, random matrix theory (RMT) is able to predict the performance of many non-linear algorithms as complex as some random neural networks as well as many kernel methods such as Support Vector Machines, semi-supervised classification, principal component analysis or spectral clustering. To characterize the performance of these algorithms theoretically, the underlying data model is often a Gaussian mixture model (GMM) which seems to be a strong assumption given the complex structure of real data (e.g., images). Furthermore, the performance of machine learning algorithms depends on the choice of data representation (or features) on which they are applied. Once again, considering data representations as Gaussian vectors seems to be quite a restrictive assumption. Relying on random matrix theory, this thesis aims at going beyond the simple GMM hypothesis, by studying classical machine learning tools under the hypothesis of Lipschitz-ally transformed Gaussian vectors also called concentrated random vectors, and which are more generic than Gaussian vectors. This hypothesis is particularly motivated by the observation that one can use generative models (e.g., GANs) to design complex and realistic data structures such as images, through Lipschitz-ally transformed Gaussian vectors. This notably suggests that making the aforementioned concentration assumption on data is a suitable model for real data and which is just as mathematically accessible as GMM models. Moreover, in terms of data representation, the concentration framework is compatible with one of the most widely used data representations in practice, namely deep neural nets (DNNs) representations, since they consist in a Lipschitz transformation of the input data (e.g., images). Therefore, we demonstrate through this thesis, leveraging on GANs, the interest of considering the framework of concentrated vectors as a model for real data. In particular, we study the behavior of random Gram matrices which appear at the core of various linear models, kernel matrices which appear in kernel methods and also classification methods which rely on an implicit solution (e.g., Softmax layer in neural networks), with concentrated random inputs. Indeed, these methods are at the heart of many classification, regression and clustering machine learning algorithms. In particular, understanding the behavior of these matrices/methods, for concentrated data, allows us to characterize the performances (on real data if we assimilate them to concentrated vectors) of many machine learning algorithms, such as spectral clustering, SVMs, principal component analysis and transfer learning. Analyzing these methods for concentrated data yields to the surprising result that they have asymptotically the same behavior as for GMM data (with the same first and second order statistics). This result strongly suggest the universality aspect of large machine learning classifiers w.r.t. the underlying data distribution.
De nos jours, l'IA repose en grande partie sur l'utilisation de données de grande taille et sur des méthodes d'apprentissage machine améliorées qui consistent à développer des algorithmes de classification et d'inférence en tirant parti de grands ensembles de données de grande taille. Ces grandes dimensions induisent de nombreux phénomènes contre-intuitifs, conduisant généralement à une mauvaise compréhension du comportement de nombreux algorithmes d'apprentissage machine souvent conçus avec des intuitions de petites dimensions de données. En tirant parti du cadre multidimensionnel (plutôt que d'en souffrir), la théorie des matrices aléatoires (RMT) est capable de prédire les performances de nombreux algorithmes non linéaires aussi complexes que certains réseaux de neurones aléatoires, ainsi que de nombreuses méthodes du noyau telles que les SVM, la classification semi-supervisée, l'analyse en composantes principales ou le regroupement spectral. Pour caractériser théoriquement les performances de ces algorithmes, le modèle de données sous-jacent est souvent un modèle de mélange gaussien (MMG) qui semble être une hypothèse forte étant donné la structure complexe des données réelles (par exemple, des images). En outre, la performance des algorithmes d'apprentissage automatique dépend du choix de la représentation des données (ou des caractéristiques) sur lesquelles ils sont appliqués. Encore une fois, considérer les représentations de données comme des vecteurs gaussiens semble être une hypothèse assez restrictive. S'appuyant sur la théorie des matrices aléatoires, cette thèse vise à aller au-delà de la simple hypothèse du MMG, en étudiant les outils classiques d'apprentissage machine sous l'hypothèse de vecteurs aléatoires concentrés qui généralisent les vecteurs Gaussiens. Cette hypothèse est particulièrement motivée par l'observation que l'on peut utiliser des modèles génératifs (par exemple, les GAN) pour concevoir des structures de données complexes et réalistes telles que des images, grâce à des transformations Lipschitzienne de vecteurs gaussiens. Cela suggère notamment que l'hypothèse de concentration sur les données mentionnée ci-dessus est un modèle approprié pour les données réelles et qui est tout aussi mathématiquement accessible que les MMG. Par conséquent, nous démontrons à travers cette thèse, en nous appuyant sur les GANs, l'intérêt de considérer le cadre des vecteurs concentrés comme un modèle pour les données réelles. En particulier, nous étudions le comportement des matrices de Gram aléatoires qui apparaissent au cœur de divers modèles linéaires, des matrices à noyau qui apparaissent dans les méthodes à noyau et également des méthodes de classification qui reposent sur une solution implicite (par exemple, la couche de Softmax dans les réseaux de neurones), avec des données aléatoires supposées concentrées. En particulier, la compréhension du comportement de ces matrices/méthodes, pour des données concentrées, nous permet de caractériser les performances (sur des données réelles si nous les assimilons à des vecteurs concentrés) de nombreux algorithmes d'apprentissage machine, tels que le clustering spectral, les SVM, l'analyse en composantes principales et l'apprentissage par transfert. L'analyse de ces méthodes pour des données concentrées donne le résultat surprenant qu'elles ont asymptotiquement le même comportement que pour les données de MMG. Ce résultat suggère fortement l'aspect d'universalité des grands classificateurs d'apprentissage machine par rapport à la distribution sous-jacente des données.
Fichier principal
Vignette du fichier
96995_SEDDIK_2020_archivage.pdf (16.36 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03125586 , version 1 (29-01-2021)

Identifiants

  • HAL Id : tel-03125586 , version 1

Citer

Mohamed El Amine Seddik. Random Matrix Theory for AI : From Theory to Practice. Signal and Image Processing. Université Paris-Saclay, 2020. English. ⟨NNT : 2020UPASG010⟩. ⟨tel-03125586⟩
193 Consultations
69 Téléchargements

Partager

Gmail Facebook X LinkedIn More