Échantillonnage pour l’accélération des méthodes à noyaux et sélection gloutonne pour les représentations parcimonieuses - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Fast kernel methods using sampling techniques, and greedy algorithms for sparse representations

Échantillonnage pour l’accélération des méthodes à noyaux et sélection gloutonne pour les représentations parcimonieuses

Résumé

The contributions of this thesis are divided into two parts. The first part is dedicated to the acceleration of kernel methods and the second to optimization under sparsity constraints. Kernel methods are widely known and used in machine learning. However, the complexity of their implementation is high and they become unusable when the number of data is large. We first propose an approximation of Ridge Leverage Scores. We then use these scores to define a probability distribution for the sampling process of the Nyström method in order to speed up the kernel methods. We then propose a new kernel-based framework for representing and comparing discrete probability distributions. We then exploit the link between our framework and the Maximum Mean Discrepancy to propose an accurate and cheap approximation of the latter. The second part of this thesis is devoted to optimization with sparsity constraint for signal optimization and random forest pruning. First, we prove under certain conditions on the coherence of the dictionary, the reconstruction and convergence properties of the Frank-Wolfe algorithm. Then, we use the OMP algorithm to reduce the size of random forests and thus reduce the size needed for its storage. The pruned forest consists of a subset of trees from the initial forest selected and weighted by OMP in order to minimize its empirical prediction error.
Les contributions de cette thèse se divisent en deux parties. Une première partie dédiée à l’accélération des méthodes à noyaux et une seconde à l’optimisation sous contrainte de parcimonie. Les méthodes à noyaux sont largement connues et utilisées en apprentissage automatique. Toutefois, la complexité de leur mise en œuvre est élevée et elles deviennent inutilisables lorsque le nombre de données est grand. Nous proposons dans un premier temps une approximation des Ridge Leverage Scores. Nous utilisons ensuite ces scores pour définir une distribution de probabilité pour le processus d’échantillonnage de la méthode de Nyström afin d’accélérer les méthodes à noyaux. Nous proposons dans un second temps un nouveau framework basé sur les noyaux, permettant de représenter et de comparer les distributions de probabilités discrètes. Nous exploitons ensuite le lien entre notre framework et la Maximum Mean Discrepancy pour proposer une approximation précise et peu coûteuse de cette dernière. La deuxième partie de cette thèse est consacrée à l’optimisation avec contrainte de parcimonie pour l’optimisation de signaux et l’élagage de forêts aléatoires. Tout d’abord, nous prouvons sous certaines conditions sur la cohérence du dictionnaire, les propriétés de reconstruction et de convergence de l’algorithme Frank-Wolfe. Ensuite, nous utilisons l’algorithme OMP pour réduire la taille de forêts aléatoires et ainsi réduire la taille nécessaire pour son stockage. La forêt élaguée est constituée d’un sous-ensemble d’arbres de la forêt initiale sélectionnés et pondérés par OMP de manière à minimiser son erreur empirique de prédiction.
Fichier principal
Vignette du fichier
manuscrit_CHERFAOUI_final.pdf (3.69 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-04004296 , version 1 (24-02-2023)

Licence

Paternité - Pas d'utilisation commerciale - Pas de modification

Identifiants

  • HAL Id : tel-04004296 , version 1

Citer

Farah Cherfaoui. Échantillonnage pour l’accélération des méthodes à noyaux et sélection gloutonne pour les représentations parcimonieuses. Informatique [cs]. Aix-Marseille Université, 2022. Français. ⟨NNT : ⟩. ⟨tel-04004296⟩
87 Consultations
35 Téléchargements

Partager

Gmail Facebook X LinkedIn More