Analysis of Ensembles of Topological Descriptors

Mathieu Pont

Résumé

Topological Data Analysis (TDA) forms a collection of tools to generically, robustly and efficiently reveal implicit structural patterns hidden in complex datasets. These tools allow to compute a topological representation for each member of an ensemble of datasets by encoding its main features of interest in a concise and informative manner. A major challenge consists then in designing analysis tools for such ensembles of topological descriptors. Several tools have been well studied for persistence diagrams, one of the most used descriptor. However, they suffer from a lack of specificity, which can yield identical data representations for significantly distinct datasets. In this thesis, we aimed at developing more advanced analysis tools for ensembles of topological descriptors, capable of tackling the lack of discriminability of persistence diagrams and going beyond what was already available for these objects. First, we adapt to merge trees, descriptors having a better specificity, the tools already available for persistence diagrams such as distances, geodesics and barycenters. Then, we want to go beyond this notion of average being the barycenter in order to study the variability within an ensemble of topological descriptors. We then adapt the Principal Component Analysis framework to persistence diagrams and merge trees, resulting in a dimensionality reduction method that indicates which structures in the ensemble are most responsible for the variability. However, this framework allows only to detect linear patterns of variability in the ensemble. To tackle this we propose to generalize this framework to Auto-Encoder in order to detect non-linear, i.e. more complex, patterns in an ensemble of merge trees or persistence diagrams. Specifically, we propose a new neural network layer capable of processing natively these objects. We present applications of all this work in feature tracking in a time-varying ensemble, data reduction to compress an ensemble of topological descriptors, clustering to form homogeneous groups in an ensemble, and dimensionality reduction to create a visual map indicating how the data are organized regarding each other in the ensemble.

L'analyse topologique de données forme un ensemble d'outils visant à révéler de manière générique, robuste et efficace les caractéristiques structurelles implicites cachées dans des ensembles de données complexes. Ces outils permettent de calculer une représentation topologique pour chaque membre d'un ensemble de données en encodant ses principales caractéristiques d'intérêt de manière concise et informative. Un défi majeur consiste ensuite à concevoir des outils d'analyse pour de tels ensembles de descripteurs topologiques. Plusieurs outils ont été bien étudiées pour les diagrammes de persistance, l'un des descripteurs les plus utilisés. Cependant, ils souffrent d'un manque de spécificité, pouvant donner des représentations de données identiques pour des données significativement différentes. Dans cette thèse, nous avons cherché à développer des outils d'analyse plus avancés pour des ensembles de descripteurs topologiques, capables de résoudre le problème de discriminabilité des diagrammes de persistance et d'aller au-delà de ce qui était déjà disponible pour ces objets. Tout d'abord nous adaptons aux arbres de fusion, descripteurs ayant une meilleur spécificité, les outils déjà disponibles pour les diagrammes de persistance tels que le calcul de distances, géodésiques et barycentres. Ensuite, nous souhaitons aller au-delà de cette simple notion de moyenne qu'est le barycentre pour étudier la variabilité au sein d'un ensemble de descripteurs topologiques. Nous adaptons alors le cadre de l'Analyse en Composantes Principales aux diagrammes de persistance et les arbres de fusion, résultant une méthode de réduction de dimensions qui indique quelles structures dans l'ensemble sont les plus responsables de la variabilité. Cependant, ce cadre permet uniquement de détecter des tendances linéaires de variabilité dans l'ensemble. Pour résoudre ce problème, nous proposons de généraliser ce cadre aux Auto-Encodeurs afin de détecter des motifs non linéaires, i.e. plus complexes, dans un ensembles d'arbres de fusions ou de diagrammes de persistance. Plus précisément, nous proposons une nouvelle couche de réseau de neurones capable de traiter nativement ces objets. Nous présentons des applications de ces travaux pour le suivi de structures dans un ensemble de données variant dans le temps pour la réduction de données pour compresser un ensemble de descripteurs topologiques, dans le partitionnement pour former des groupes homogènes dans un ensemble, et dans la réduction de dimensions pour créer une carte visuelle indiquant comment les données sont organisées les unes par rapport aux autres dans l'ensemble.

Analysis of Ensembles of Topological Descriptors

Analyse d'ensembles de descripteurs topologiques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager