Une approche matérialisée basée sur les vues pour l'intégration de documents XML - Thèses de l'Université Joseph Fourier Accéder directement au contenu
Thèse Année : 2009

A view-based approach to the integration of structured and semi-structured data

Une approche matérialisée basée sur les vues pour l'intégration de documents XML

Résumé

Semi-structured data play an increasing role in the development of the Web through the use of XML. However, the management of semi-structured data poses specifi c problems because semistructured data, contrary to classical databases, do not rely on a prede fined schema. The schema of a document is contained in the document itself and similar documents may be represented by di fferent schemas. Consequently, the techniques and algorithms used for querying or integrating this data are more complex than those used for structured data. The objective of our work is the integration of XML data by using the principles of Osiris, a prototype of KB-DBMS, in which views are a central concept. In this system, a family of objects is de fined by a hierarchy of views, where a view is defi ned by its parent views and its own attributes and constraints. Osiris belongs to the family of Description Logics ; the minimal view of a family of objects is assimilated to a primitive concept and its other views to defi ned concepts. An object of a family satis fies some of its views. For each family of objects, Osiris builds a n-dimensional classifi cation space by analysing the constraints defi ned in all of its views. This space is used for object classifi cation and indexation. In this thesis we study the contribution of the main features of Osiris - classi fication, indexation and semantic query optimization - to the integration of XML documents. For this purpose we produce a target schema (an abstract XML schema), which represents an Osiris schema ; every document satisfying a source schema (concrete XML schema) is rewritten in terms of the target schema before undergoing the extraction of the values of its entities. The objects corresponding to these entities are then classifi ed and indexed. The Osiris mechanism for semantic query optimization can then be used to extract the objects of interest of a query. We have realized a prototype, named OSIX (Osiris-based System for the Integration of XML documents) and we have applied it to the integration and interrogation of XML documents simulating the data of a hospital.
Les données semi-structurées occupent une place croissante dans l'évolution du Web par le biais du langage XML. La gestion de telles données ne s'appuie pas sur un schéma pré-dé fini, comme dans le cas de données structurées, gérées par exemple par le modèle relationnel. Le schéma de chaque document est auto-contenu dans le document même, et des documents similaires peuvent être représentés par des schémas différents. C'est pourquoi les algorithmes et les techniques d'intégration et d'interrogation de telles sources de données sont souvent plus complexes que ceux défi nis pour l'intégration et l'interrogation de sources de données structurées. L'objectif de notre travail est l'intégration de données XML en utilisant les principes d'Osiris, un prototype de SGBD-BC, dont le concept central est celui de vue. Dans ce système, une famille d'objets est défi nie par une hiérarchie de vues, où chaque vue est défi nie par ses vues mères, ses attributs et contraintes propres. Osiris appartient à la famille des logiques de description, la vue minimale d'une famille d'objets étant assimilée à un concept primitif et ses autres vues à des concepts définis. Un objet d'une famille satisfait certaines de ses vues. Pour chaque famille d'objets, Osiris construit, par analyse des contraintes dé finies dans toutes ses vues, un espace de classement n-dimensionnel. Cet espace sert de support au classement d'objets et aussi à leur indexation. Dans cette thèse nous avons étudié l'apport des principales fonctionnalités d'Osiris - classement, indexation et optimisation sémantique des requêtes à l'intégration de documents XML. Pour cela nous produisons un schéma cible (XML schema abstrait), qui représente un schéma Osiris ; chaque document satisfaisant un schéma source (XML schema concret) est réécrit en termes du schéma cible avant de subir l'extraction des valeurs de ses entités. Les objets correspondant à ces entités sont alors classés et indexés. Le mécanisme d'optimisation sémantique des requêtes d'Osiris peut dès lors être utilisé pour extraire les objets d'intérêt pour une requête. Nous avons réalisé un prototype, nommé OSIX (Osiris-based System for the Integration of XML sources) et nous l'avons appliqué à l'intégration et l'interrogation de documents XML simulant les données d'un hôpital.
Fichier principal
Vignette du fichier
these-HoudaAhmad.pdf (2.62 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00957148 , version 1 (08-03-2014)

Identifiants

  • HAL Id : tel-00957148 , version 1

Citer

Houda Ahmad. Une approche matérialisée basée sur les vues pour l'intégration de documents XML. Base de données [cs.DB]. Université Joseph-Fourier - Grenoble I, 2009. Français. ⟨NNT : ⟩. ⟨tel-00957148⟩
1051 Consultations
840 Téléchargements

Partager

Gmail Facebook X LinkedIn More