Connecting graphs to machine learning - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Connecting graphs to machine learning

Liaison entre apprentissage automatique et graphes

Résumé

This thesis proposes new approaches to process graph using machine learning algorithms designed for tabular data. A graph is a data structure made of nodes linked to each others by edges. This structure can be represented under a matrix form where the connection between two nodes is represented by a non-zero value, simplifying the manipulation of the data. Nonetheless, the transposition of an algorithm adapted to tabular data to graphs would not give the expected results because of the structural differences. Two characteristics make the transposition difficult: the low nodes’ connectivity and the power-law distribution of nodes’ degree. These two characteristics both lead to sparse matrices with low information content while requiring a large memory. In this work, we propose several methods that consider these two graph’s specificities. In the first part, we focus on citation graphs which belong to the directed acyclic graph category and can be exploited for technical watch, while the second part is dedicated to bipartite graphs mainly use by recommender systems. These adaptations permit the achievement of usual machine learning tasks, such as clustering and data visualization. Specific co-clustering algorithms were designed to segment jointly each side of a bipartite graph and identify groups of similar nodes. The third part approaches graphs from a different perspective. The developed approach exploits the k nearest neighbours graph built from the tabular data to help correcting classification errors. These different methods use diverse methods to embed more information in a vector compared to the usual binary encoding, allowing to process graphs with usual machine learning algorithm.
L’objet de cette thèse est de proposer des approches nouvelles permettant l’utilisation d’algorithmes d’apprentissage automatique travaillant usuellement des données tabulaires aux graphes. Un graphe est une structure de donnée composée de nœuds reliés entre eux par des liens. Cette structure peut être représentée sous la forme d’une matrice, où chaque connexion entre de nœuds est représentée par une valeur non nulle, permettant une manipulation des données plus facile. Néanmoins, par leurs différences structurelles, la transposition d’un algorithme exploitant des données tabulaires aux graphes ne donne pas les résultats escomptés. Deux caractéristiques rendent cette adaptation difficile : la faible connectivité des nœuds ainsi que la distribution en loi de puissance du degré des nœuds. Ces caractéristiques conduisent toutes les deux à des matrices creuses pauvres en information tout en nécessitant beaucoup de mémoire de stockage. Dans ces travaux, nous proposons plusieurs manières de prendre en compte ces différences pour deux types de graphes particuliers. Dans la première partie, nous nous intéressons aux graphes de citations et à leur représentation dans l’optique de la veille technologique, tandis que la seconde partie s’adresse aux graphes bipartites utilisés principalement par les systèmes de recommandation. Ces adaptations permettent la réalisation de taches usuelles en apprentissage automatique, telle que le partitionnement et la visualisation des données. Pour le cas des graphes bipartites, des algorithmes spécifiques de co-partitionnement sont proposés pour la segmentation conjointe des deux parties. La troisième partie prend un revers différent. La méthode développée exploite le graphe des k plus proches voisins construit à partir des données tabulaires afin de corriger des erreurs de classifications. Les différentes méthodes développées utilisent diverses approches pour emmagasiner plus d’information dans un vecteur par rapport à l’encodage binaire habituel, permettant de travailler les graphes avec des algorithmes usuel d’apprentissage automatique.
Fichier principal
Vignette du fichier
Candel_2022_These.pdf (10.41 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04468580 , version 1 (20-02-2024)

Identifiants

  • HAL Id : tel-04468580 , version 1

Citer

Gaëlle Candel. Connecting graphs to machine learning. Machine Learning [cs.LG]. Université Paris sciences et lettres, 2022. English. ⟨NNT : 2022UPSLE018⟩. ⟨tel-04468580⟩
36 Consultations
7 Téléchargements

Partager

Gmail Facebook X LinkedIn More