On the similarities of trees : the interest of enumeration and compression methods - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

On the similarities of trees : the interest of enumeration and compression methods

Sur la similarité des arbres : l’intérêt des méthodes d’énumération et de compression

Florian Ingels
  • Fonction : Auteur
  • PersonId : 1208747
  • IdRef : 265303486

Résumé

Tree data appear naturally in many scientific domains. Their intrinsically non-Euclidean nature and the combinatorial explosion phenomenon make their analysis delicate. In this thesis, we focus on three approaches to compare trees, notably through the prism of a lossless compression technique of trees into directed acyclic graphs. First, concerning tree isomorphism, we consider an extension of the classical definition to labeled trees, which requires that trees are identical up to label rewriting. This problem is as hard as graph isomorphism, and we have developed an algorithm that drastically reduces the size of the solution search space which is then explored with a backtracking strategy. When two trees are different, we may try to find common substructures. If this question has already been addressed for subtrees, we are interested in a larger problem, namely finding sets of subtrees appearing simultaneously. This leads us to consider forest enumeration, for which we propose a reverse search algorithm that constructs an enumeration tree whose branching factor is linear. Finally, from a list of common substructures, one can build a convolution kernel allowing to tackle classification problems. We consider the subtree kernel from the literature, and build an algorithm that explicitly enumerates subtrees (unlike the original method). In particular, our approach allows us to parameterize the kernel more finely, significantly improving its classification abilities.
Les arbres sont des données qui apparaissent naturellement dans de nombreux domaines scientifiques. Leur nature intrinsèquement non euclidienne ainsi que le phénomène d’explosion combinatoire rendent leur analyse délicate. On s’intéresse dans cette thèse à trois approches permettant de comparer des arbres, sous le prisme notamment d’une technique de compression sans perte des arbres par des graphes dirigés acycliques. D’abord, concernant l’isomorphisme d’arbres, nous considérons une extension de la définition classique aux arbres étiquetés, qui requiert que les arbres soient identiques à réécriture des étiquettes près. Ce problème est aussi dur que l’isomorphisme de graphes, et nous avons développé un algorithme qui réduit drastiquement la taille de l’espace de recherche des solutions, qui est ensuite exploré avec une stratégie de retour sur trace. Lorsque deux arbres sont différents, on peut chercher à en trouver des sous-structures communes. Si cette question a déjà été traitée pour les sous-arbres, nous nous intéressons à un problème plus large, celui de trouver des ensembles de sous-arbres apparaissant simultanément. Cela nous amène à considérer l’énumération des forêts, pour laquelle nous proposons un algorithme de type “reverse search” qui construit un arbre d’énumération dont le facteur de branchement est linéaire. Enfin, à partir d’une liste de sous-structures communes, on peut construire un noyau de convolution qui permet d’aborder des problèmes de classification. Nous reprenons de la littérature le noyau des sous-arbres, et construisons un algorithme qui les énumère explicitement (contrairement à la méthode originale). Notre approche permet notamment de paramétrer plus finement le noyau, améliorant significativement les capacités de classification.
Fichier principal
Vignette du fichier
INGELS_Florian_2022ENSL0010_These.pdf (8.3 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03908078 , version 1 (20-12-2022)

Identifiants

  • HAL Id : tel-03908078 , version 1

Citer

Florian Ingels. On the similarities of trees : the interest of enumeration and compression methods. Discrete Mathematics [cs.DM]. Ecole normale supérieure de lyon - ENS LYON, 2022. English. ⟨NNT : 2022ENSL0010⟩. ⟨tel-03908078⟩
121 Consultations
108 Téléchargements

Partager

Gmail Facebook X LinkedIn More