ExpRalytics : Expressive and Efficient Analytics for RDF Graphs

Pawel Guzewicz

Résumé

Large (Linked) Open Data are increasingly shared as RDF graphs today.However, such data does not yet reach its full potential in terms of sharing and reuse.The main bottleneck here lies in the capacity of human users to explore, discover, and grasp the content and insights of RDF graphs which are inherently heterogeneous and can be both large and complex.In the first part of this thesis, we provide new methods to meaningfully summarize data graphs, with a particular focus on RDF graphs.One class of tools for this task are structural RDF graph summaries, which allow users to grasp the different connections between RDF graph nodes.To this end, we introduce our novel RDFQuotient tool that finds compact yet informative RDF graph summaries that can serve as first-sight visualizations of an RDF graph's structure.These summaries, based on the notion of quotient graphs, are easy to understand for casual users; they provide an overview of the complete structure of an RDF graph while being typically many orders of magnitude smaller.Our summarization algorithms have a linear time complexity in the size of the input graph.Further, we proposed incremental summarization algorithms capable of bringing the smallest needed adjustments to a summary in order to reflect modifications in the input graph.We have also proposed novel algorithms for building the summaries in a parallel shared-nothing architecture and instantiated them to the Apache Spark platform.In the second part of this thesis, we consider the problem of automatically identifying the k most interesting aggregate queries that can be evaluated on an RDF graph, given an integer k and a user-specified interestingness function.Aggregate queries are routinely used to learn insights from relational data warehouses, and some prior research has addressed the problem of automatically recommending interesting aggregate queries.However, the RDF setting is quite different:- In an RDF graph we are not given but we must identify the facts, dimensions, and measures which compose aggregate queries;- Relational OLAP algorithms for efficiently evaluating multiple aggregates cannot handle the presence of multi-valued dimensions for a given fact; such dimensions are quite frequently found in RDF data: facts may have zero, one or more values for dimensions.We devise Spade, an extensible end-to-end framework that enables the identification and evaluation of interesting aggregates based on MVDCube, our new RDF-compatible one-pass algorithm for efficiently evaluating a lattice of aggregates, and a novel early-stop technique (with probabilistic guarantees) that can prune uninteresting aggregates and, as a result, reduce the aggregate evaluation cost.Experiments using both real and synthetic graphs demonstrate the ability of our framework to find interesting aggregates in a large search space, the efficiency of our algorithms, and scalability as the data size and complexity grow.

Les données ouvertes sont souvent partagés sous la forme de graphes RDF, qui sont une incarnation du principe Linked Open Data.De telles données n'ont toutefois pas atteint leur entier potentiel d'utilisation et de partage.L'obstacle pour ce faire réside principalement au niveau de la capacité des utilisateurs à explorer, découvrir et saisir le contenu et des graphes RDF; cette tâche est complexe car les graphes sont naturellement hétérogènes, et peuvent être à la fois volumineux et complexes.Dans la première partie de cette thèse, nous proposons de nouvelles méthodes pour résumer de grands graphes de données, avec un accent particulier sur les graphes RDF.Un outil particulièrement puissant pour cette tâche est un résumé structurel d'un graphe RDF structurels; ce résumé informe les utilisateurs sur les différentes connexions entre les nœuds de graphe RDF.À cette fin, nous avons proposé une nouvelle approché pour la construction de résumés structurels de graphes RDF, à savoir RDFQuotient; les résumés qu'il construit peuvent servir de première visualisation de la structure d'un graphe RDF, tout en étant plusieurs plus compacts, souvent de plusieurs ordres de grandeur.Nous avons identifié une famille de quatre tels résumés, utilisant différentes relations d'équivalence entre les noeuds et/ou utilisant de différentes manière les types éventuellement présents dans les graphes RDF.Nous avons proposé des algorithmes capables de construire ces résumés; tous ces algorithmes sont très efficace puisque complexité de calcul dépend de façon linéaire de la taille du graphe.Nous avons aussi proposé des variantes incrémentales de nos algorithmes, qui le font évoluer de manière efficace en appliquant juste les modifications nécessaires afin de lui permettre de refléter des modifications dans le graphe d'entrée.Dans la deuxième partie de cette thèse, nous considérons le problème d'identifier automatiquement les requêtes d'agrégation les plus intéressantes qui peuvent être évaluées sur un graphe RDF, étant donnée une fonction d'intérêt spécifiée par l'utilisateur.Les requêtes d'agrégation sont couramment utilisées pour analyser des entrepôts de données relationnelles, et certaines recherches antérieures ont abordé le problème de la recommandation automatique des requêtes d'agrégation les plus intéressantes.Cependant, le problème est assez différent dans le contexte d'un entrepôt de données RDF:- Dans un graphe RDF, nous devons identifier les faits, les dimensions et les mesures qui composent une requête d'agrégation, alors que dans le cadre relationnel, ces informations sont déterminées par le schéma de l'entrepôt;- Les algorithmes OLAP capable d'évaluer efficacement, conjointement, plusieurs requêtes d'agrégation ne s'appliquent pas en présence de dimensions à valeurs multiples pour un fait donné ; de telles dimensions sont assez fréquentes dans les données RDF (où un fait peut avoir zéro, une ou plusieurs valeurs pour chaque dimension).Nous avons proposé Spade, un approche nouvelle, complète et extensible, qui permet l'identification et l'évaluation de requêtes d'agrégation intéressantes.Au coeur de l'exploration est MVDCube, notre nouvel algorithme spécialement conçu pour RDF, capable d'évaluer efficacement un treillis d'agrégats.Par ailleurs, nous avons proposé une nouvelle technique d'arrêt précoce du calcul d'un aggrégat (avec des garanties probabilistes); cette technique permet d'épargner du temps de calcul sur des agrégats qui s'avèrent sans intérêt, et réduit les coûts associé à notre travail d'exploration de requêtes d'agrégation.Des expériences utilisant à la fois des graphes réels et synthétiques démontrent sa à trouver des agrégats intéressants dans un grand espace de recherche, l'efficacité de nos algorithmes (dont la performance est meilleure que celle de PostgreSQL pour des tâches où les systèmes sont comparables), et étudié leur évaluation lorsque la taille et la complexité des données augmentent.

ExpRalytics : Expressive and Efficient Analytics for RDF Graphs

ExpRalytics : analyse expressive et efficace de graphes RDF

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager