Échantillonnage pour l’accélération des méthodes à noyaux et sélection gloutonne pour les représentations parcimonieuses

Farah Cherfaoui

Thèse Année : 2022

Fast kernel methods using sampling techniques, and greedy algorithms for sparse representations

Échantillonnage pour l’accélération des méthodes à noyaux et sélection gloutonne pour les représentations parcimonieuses

(1, 2)

1
2

Farah Cherfaoui

Fonction : Auteur
PersonId : 1038756

Laboratoire d'Informatique et des Systèmes (LIS) (Marseille, Toulon)

Institut de Mathématiques de Marseille

Résumé

The contributions of this thesis are divided into two parts. The first part is dedicated to the acceleration of kernel methods and the second to optimization under sparsity constraints. Kernel methods are widely known and used in machine learning. However, the complexity of their implementation is high and they become unusable when the number of data is large. We first propose an approximation of Ridge Leverage Scores. We then use these scores to define a probability distribution for the sampling process of the Nyström method in order to speed up the kernel methods. We then propose a new kernel-based framework for representing and comparing discrete probability distributions. We then exploit the link between our framework and the Maximum Mean Discrepancy to propose an accurate and cheap approximation of the latter. The second part of this thesis is devoted to optimization with sparsity constraint for signal optimization and random forest pruning. First, we prove under certain conditions on the coherence of the dictionary, the reconstruction and convergence properties of the Frank-Wolfe algorithm. Then, we use the OMP algorithm to reduce the size of random forests and thus reduce the size needed for its storage. The pruned forest consists of a subset of trees from the initial forest selected and weighted by OMP in order to minimize its empirical prediction error.

Les contributions de cette thèse se divisent en deux parties. Une première partie dédiée à l’accélération des méthodes à noyaux et une seconde à l’optimisation sous contrainte de parcimonie. Les méthodes à noyaux sont largement connues et utilisées en apprentissage automatique. Toutefois, la complexité de leur mise en œuvre est élevée et elles deviennent inutilisables lorsque le nombre de données est grand. Nous proposons dans un premier temps une approximation des Ridge Leverage Scores. Nous utilisons ensuite ces scores pour définir une distribution de probabilité pour le processus d’échantillonnage de la méthode de Nyström afin d’accélérer les méthodes à noyaux. Nous proposons dans un second temps un nouveau framework basé sur les noyaux, permettant de représenter et de comparer les distributions de probabilités discrètes. Nous exploitons ensuite le lien entre notre framework et la Maximum Mean Discrepancy pour proposer une approximation précise et peu coûteuse de cette dernière. La deuxième partie de cette thèse est consacrée à l’optimisation avec contrainte de parcimonie pour l’optimisation de signaux et l’élagage de forêts aléatoires. Tout d’abord, nous prouvons sous certaines conditions sur la cohérence du dictionnaire, les propriétés de reconstruction et de convergence de l’algorithme Frank-Wolfe. Ensuite, nous utilisons l’algorithme OMP pour réduire la taille de forêts aléatoires et ainsi réduire la taille nécessaire pour son stockage. La forêt élaguée est constituée d’un sous-ensemble d’arbres de la forêt initiale sélectionnés et pondérés par OMP de manière à minimiser son erreur empirique de prédiction.

Mots clés

Kernel methods optimisation with sparsity constraints

méthodes à noyaux optimisation avec contraintes de parcimonie

Domaines

Informatique [cs] Mathématiques [math]

Fichier principal

manuscrit_CHERFAOUI_final.pdf (3.69 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Farah Cherfaoui : Connectez-vous pour contacter le contributeur

https://hal.science/tel-04004296

Soumis le : vendredi 24 février 2023-16:55:28

Dernière modification le : jeudi 2 mai 2024-14:41:18

Archivage à long terme le : jeudi 25 mai 2023-19:28:39

Dates et versions

tel-04004296 , version 1 (24-02-2023)

Licence

Paternité - Pas d'utilisation commerciale - Pas de modification

Identifiants

HAL Id : tel-04004296 , version 1

Citer

Farah Cherfaoui. Échantillonnage pour l’accélération des méthodes à noyaux et sélection gloutonne pour les représentations parcimonieuses. Informatique [cs]. Aix-Marseille Université, 2022. Français. ⟨NNT : ⟩. ⟨tel-04004296⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLN CNRS UNIV-AMU EC-MARSEILLE INSMI I2M I2M-2014- LIS-LAB INCIAM

87 Consultations

35 Téléchargements

Fast kernel methods using sampling techniques, and greedy algorithms for sparse representations

Échantillonnage pour l’accélération des méthodes à noyaux et sélection gloutonne pour les représentations parcimonieuses

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager