Laplacian Powers for Graph-Based Semi-Supervised Learning - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2019

Laplacian Powers for Graph-Based Semi-Supervised Learning

Puissances du Laplacien pour L’apprentissage Semi-Supervisé sur Graphes

Résumé

Graph-Based Semi-Supervised Learning (G-SSL) techniques learn from both labelled and unla- belled data to build better classifiers. Despite successes, its performance can still be improved, particularly in cases of graphs with unclear clusters or unbalanced labelled datasets. To ad- dress such limitations, the main contribution of this dissertation is a novel method for G-SSL referred to as the Lγ -PageRank method. It consists of a generalization of the PageRank algo- rithm based on the positive γ-th powers of the graph Laplacian matrix. The theoretical study of Lγ -PageRank shows that (i) for γ < 1, it corresponds to an extension of the PageRank algo- rithm to L´evy processes: where random walkers can now perform far-distant jumps in a single step; and (ii) for γ > 1, it operates on signed graphs: where nodes belonging to one same class are more likely to share positive edges while nodes from different classes are more likely to be connected with negative edges. We show the existence of an optimal γ-th power that maximizes performance, for which a method for its automatic estimation is devised and assessed. Exper- iments on several datasets demonstrate that the L´evy flight random walkers can enhance the detection of classes with complex local structures and that the signed graphs can significantly improve the separability of data and also override the issue of unbalanced labelled data. In addition, we study efficient implementations of Lγ -PageRank. Extensions of Power Iteration and Gauss-Southwell, successful algorithms to efficiently compute the solution of the standard PageRank algorithm, are derived for Lγ -PageRank. Moreover, the dynamic versions of Power Iteration and Gauss-Southwell, which can update the solution of standard PageRank in sub- linear complexity when the graph evolves or new data arrive, are also extended to Lγ -PageRank. Lastly, we apply Lγ -PageRank in the context of Internet routing. We address the problem of identifying the Autonomous Systems (AS) of inter-AS links from the network of IP addresses and AS public registers. Experiments on tracerout measurements collected from the Internet show that Lγ -PageRank can solve this inference task with no errors, even when the expert does not provide labelled examples of all classes.
Les techniques d’apprentissage semi-supervisé basées sur des graphes (G-SSL) permettent d’exploiter des données étiquetées et non étiquetées pour construire de meilleurs classifiers. Malgré de nombreuses réussites, leur performances peuvent encore être améliorées, en particulier dans des situations ou` les graphes ont une faible séparabilité de classes ou quand le nombres de sujets supervisés par l’expert est déséquilibrés. Pour aborder ces limitations on introduit une nouvelle méthode pour G-SSL, appel´ee Lγ -PageRank, qui constitue la principal contribution de cette th`ese. Il s’agit d’une g´en´eralisation de l’algorithme PageRank ´a partir de l’utilisation de puissances positives γ de la matrice Laplacienne du graphe. L’étude théorique de Lγ -PageRank montre que (i) pour γ < 1, cela correspond `a une extension de l’algorithme PageRank aux processus de vol de L´evy: ou` les marcheurs aléatoires peuvent désormais relier, en un seul saut, des nœuds distants du graphe; et (ii) pour γ > 1, la classification est effectué sur des graphes signés: ou` les nœuds appartenant `a une même classe ont plus de chances de partager des liens positifs, tandis que les nœuds de classes différentes ont plus de chances d’être connectés avec des arêtes négatifs. Nous montrons l’existence d’une puissance optimale γ qui maximise la performance de classification, pour laquelle une méthode d’estimation automatique est conçue et évaluée. Des expériences sur plusieurs jeux de données montrent que les marcheurs aléatoires de vols de Lévy peuvent améliorer la détection des classes ayant des structures locales complexes, tandis que les graphes signés permet d’améliorer considérablement la séparabilité des données et de surpasser le problème des données étiquetées non équilibrées. Dans un second temps, nous étudions des implémentations efficaces de Lγ -PageRank. Nous proposons des extensions de Power Iteration et Gauss-Southwell pour Lγ -PageRank, qui sont des algorithmes initialement conçues pour calculer efficacement la solution de la méthode PageRank standard. Ensuite, les versions dynamiques de ces algorithmes sont également étendues à Lγ -PageRank, permettant de mettre `a jour la solution de Lγ -PageRank en complexité sub-linéaire lorsque le graphe évolue ou que de nouvelles données arrivent. Pour terminer, nous appliquons Lγ -PageRank dans le contexte du routage Internet. Nous abordons le problème de l’identification des systèmes autonomes (AS) pour des arêtes inter-AS `a partir du réseau d’adresses IP et des registres publics des AS. Des expériences sur des mesures traceroute d’Internet montrent que Lγ -PageRank peut résoudre cette tâche sans erreurs, même lorsqu’il n’y a pas d’exemples étiquetés par l’expert pour la totalité des classes.
Fichier principal
Vignette du fichier
BAUTISTA_RUIZ_Esteban_2019LYSEN081_These.pdf (28.28 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02476246 , version 1 (12-02-2020)

Identifiants

  • HAL Id : tel-02476246 , version 1

Citer

Esteban Bautista Ruiz. Laplacian Powers for Graph-Based Semi-Supervised Learning. Artificial Intelligence [cs.AI]. Université de Lyon, 2019. English. ⟨NNT : 2019LYSEN081⟩. ⟨tel-02476246⟩
439 Consultations
250 Téléchargements

Partager

Gmail Facebook X LinkedIn More