Knowledge hypergraph based-approach for multi-source data integration and querying : Application for Earth Observation domain - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Knowledge hypergraph based-approach for multi-source data integration and querying : Application for Earth Observation domain

Une approche basée sur l'hypergraphe de connaissances pour l'intégration de données multisource : Application à l'observation de la terre

Maroua Masmoudi
  • Fonction : Auteur
  • PersonId : 1271422
  • IdRef : 234614560

Résumé

Early warning against natural disasters to save lives and decrease damages has drawn increasing interest to develop systems that observe, monitor, and assess the changes in the environment. Over the last years, numerous environmental monitoring systems and Earth Observation (EO) programs were implemented. Nevertheless, these systems generate a large amount of EO data while using different vocabularies and different conceptual schemas. Accordingly, data resides in many siloed systems and are mainly untapped for integrated operations, insights, and decision making situations. To overcome the insufficient exploitation of EO data, a data integration system is crucial to break down data silos and create a common information space where data will be semantically linked. Within this context, we propose a semantic data integration and querying approach, which aims to semantically integrate EO data and provide an enhanced query processing in terms of accuracy, completeness, and semantic richness of response. . To do so, we defined three main objectives. The first objective is to capture the knowledge of the environmental monitoring domain. To do so, we propose MEMOn, a domain ontology that provides a common vocabulary of the environmental monitoring domain in order to support the semantic interoperability of heterogeneous EO data. While creating MEMOn, we adopted a development methodology, including three fundamental principles. First, we used a modularization approach. The idea is to create separate modules, one for each context of the environment domain in order to ensure the clarity of the global ontology’s structure and guarantee the reusability of each module separately. Second, we used the upper-level ontology Basic Formal Ontology and the mid-level ontologies, the Common Core ontologies, to facilitate the integration of the ontological modules in order to build the global one. Third, we reused existing domain ontologies such as ENVO and SSN, to avoid creating the ontology from scratch, and this can improve its quality since the reused components have already been evaluated. MEMOn is then evaluated using real use case studies, according to the Sahara and Sahel Observatory experts’ requirements. The second objective of this work is to break down the data silos and provide a common environmental information space. Accordingly, we propose a knowledge hypergraphbased data integration approach to provide experts and software agents with a virtual integrated and linked view of data. This approach generates RML mappings between the developed ontology and metadata and then creates a knowledge hypergraph that semantically links these mappings to identify more complex relationships across data sources. One of the strengths of the proposed approach is it goes beyond the process of combining data retrieved from multiple and independent sources and allows the virtual data integration in a highly semantic and expressive way, using hypergraphs. The third objective of this thesis concerns the enhancement of query processing in terms of accuracy, completeness, and semantic richness of response in order to adapt the returned results and make them more relevant and richer in terms of relationships. Accordingly, we propose a knowledge-hypergraph based query processing that improves the selection of sources contributing to the final result of an input query. Indeed, the proposed approach moves beyond the discovery of simple one-to-one equivalence matches and relies on the identification of more complex relationships across data sources by referring to the knowledge hypergraph. This enhancement significantly showcases the increasing of answer completeness and semantic richness. The proposed approach was implemented in an open-source tool and has proved its effectiveness through a real use case in the environmental monitoring domain.
Les dégâts humains et matériels engendrés par les catastrophes naturelles, avaient suscité un intérêt grandissant pour le développement des systèmes d’observation et de surveillance de l’environnement, sans pour autant mettre en exergue, la collaboration et l’échange comme principal point d’une efficace prévention des catastrophes. De tels systèmes génèrent des données hétérogènes et cloisonnées dans des silos. A défaut d’une vision globale des données disponibles, les experts éprouvent des difficultés à accéder, manipuler et comprendre ces données multi-source. Afin de remédier à cette insuffisance d’exploitation, un système d'intégration de données est essentiel pour briser les silos de données et créer un espace commun d'information où les données seront liées sémantiquement. C’est dans cet ordre d’idées que nous proposons une approche sémantique d'intégration et d'interrogation des données multisources. Pour ce faire, nous avons défini trois principaux objectifs. Le premier objectif est de formaliser les connaissances liées au domaine de l’environnement afin d'assurer une interopérabilité sémantique entre les données multi-source. Ainsi, nous avons proposé MEMOn, une ontologie de domaine qui fournit un vocabulaire commun couvrant le domaine de l’environnement. Nous avons adopté une méthodologie agile basée sur la modularisation, l’alignement avec une ontologie de haut niveau et la réutilisation des ontologies existantes. La modularisation consiste à développer des modules ontologiques séparés. Chaque module présente un contexte spécifique du domaine de l’environnement et ce dans le but d’assurer la clarté de la structure de l’ontologie globale. De plus, nous avons utilisé l’ontologie de haut niveau Basic Formal Ontology et les ontologies intermédiaires Common Core Ontologies afin de faciliter l’intégration des modules ontologiques développés pour créer MEMOn. Aussi, nous avons réutilisé des ontologies de domaine existantes telles que ENVO et SSN afin d’éviter de créer notre ontologie à partir de zéro. MEMOn est ensuite évaluée à l'aide de cas d'utilisation réelles et conformément aux exigences des experts. Le deuxième objectif de ce travail est de briser les silos de données et de fournir un espace commun d'information sur l'environnement où les données pourraient être liées sémantiquement. En conséquence, nous proposons une approche sémantique d'intégration virtuelle des données basée sur l'hypergraphe afin de fournir aux experts une vue intégrée et liée des données. L’approche consisite à génrer des mappings RML entre l'ontologie et les métadonnées et à créer ensuite un hypergraphe de connaissances qui relie sémantiquement ces mappings afin d’identifier des relations plus complexes entre les données. Un des atouts de l'approche proposée est qu'elle va au-delà du processus de combinaison de données extraites de sources indépendantes pour assurer une intégration de données hautement sémantique et expressive. Le troisième objectif de cette thèse concerne l'amélioration du traitement des requêtes en termes de précision et de complétude des résultats afin d'adapter les résultats renvoyés et les rendre plus pertinents et plus riches termes de relations. En conséquence, nous avons développé une approche de traitement des requêtes basée sur l'hypergraphe de connaissances qui améliore la tâche de sélection des sources contribuant au résultat final d'une requête SPARQL saisie. En effet, l'approche proposée transcende la simple découverte de correspondances entre la requête et les schémas de sources et assure l'identification de correspondances plus complexes avec les sources de données en se référant à l'hypergraphe de connaissances. Sur la base de ces résultats, d'autres étapes du traitement de la requête, y compris la réécriture de la requête et l'évaluation de la requête, sont effectuées. Notre approche est concrétisée par le développement d’un outil dont l’efficacité a été prouvée moyennant l’évaluation d’un cas réel.
Fichier principal
Vignette du fichier
MASMOUDI_Maroua.pdf (10.33 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04166086 , version 1 (19-07-2023)

Identifiants

  • HAL Id : tel-04166086 , version 1

Citer

Maroua Masmoudi. Knowledge hypergraph based-approach for multi-source data integration and querying : Application for Earth Observation domain. Other [cs.OH]. Institut National Polytechnique de Toulouse - INPT; Université de la Manouba (Tunisie), 2020. English. ⟨NNT : 2020INPT0049⟩. ⟨tel-04166086⟩
21 Consultations
39 Téléchargements

Partager

Gmail Facebook X LinkedIn More