Contributions à la conception et l’exploitation de systèmes d’intégration de données

Ladjel Bellatreche

Résumé

With the development of the Internet and Intranets, it has become crucial to exchange and share an enormous quantity of information from various data sources scattered across the Web or within different organizations. To meet these needs, integration solutions have been proposed along three dimensions: data integration, application integration, and platform integration. The work presented in this thesis aims to propose innovative solutions for building a data integration system. A comprehensive approach to the development of an integration system is presented. It is structured around three main phases: building an integration system, operating it, and customizing it. For the construction phase, we have proposed an automatic semantic integration approach, while leaving each of the sources likely to be integrated with significant autonomy in terms of both its structure and its evolution. It assumes that each source contains both its own ontology and the semantic relations that link it a priori with one or more shared ontologies. Such a source is called an ontology-based data source (OBDS). To implement our integration approach, we first proposed a model and architecture for managing ontology-based data sources. This architecture is made up of four parts: the first two correspond to the usual database structure: data based on a logical data schema, and a meta-base describing the entire table structure. The other two, original parts, respectively represent ontologies and the ontology meta-model within a reflexive meta-model. Abstraction and naming mechanisms enable each piece of data to be associated with the ontological concept that defines its meaning, and data to be accessed from concepts, without having to worry about data representation. For the data exploitation phase, we presented solutions to provide administrators with query optimization structures. Since we have been working on this phase since 1996, we have proposed optimization solutions that can be applied to integration systems following an architecture materialized in the form of a traditional database or a relational data warehouse. We have identified two types of optimization structure selection: isolated selection and multiple selection. For isolated selection, we presented algorithms for horizontal fragmentation and join indexes. For multiple selection, we studied the problem of selecting binary join indexes and derived fragmentation by exploiting the similarities between them. Other problems are also presented, such as parallel processing and resource allocation between redundant structures (materialized views and indexes). To facilitate administration tasks, we have developed a tool to assist administrators in their tasks, which can be used before or after the creation of an integration system. Personalization is a recent phase in our work. We first studied its effect on the selection of optimization structures. Recently, we have proposed solutions for the representation of user profiles within a database. Personalization is a recent phase in our work. We first studied its effect on the selection of optimization structures. More recently, we have proposed solutions for representing user profiles within a BDBO to facilitate their sharing and exchange.

Avec le développement d’Internet et des Intranets, l’échange et le partage de l’énorme quantité d’in- formations provenant de diverses sources de données éparpillées sur la Toile ou au sein de différentes organisations sont devenus cruciaux. Pour répondre à ces besoins, des solutions d’intégration ont été proposées selon trois dimensions : l’intégration des données, l’intégration des applications et l’intégration des plateformes. Le travail présenté dans ce mémoire vise à proposer des solutions innovantes au niveau de la construction d’un système d’intégration de données. Une démarche compréhensive de développement d’un système d’intégration est présentée. Elle s’articule autour de trois principales phases : la construction d’un système d’intégration, son exploitation et sa personnalisation. Pour la phase de construction, nous avons proposé une approche d’intégration sémantique automatique, tout en laissant à chacune des sources susceptibles d’être intégrer une autonomie significative tant au niveau de sa structure qu’au niveau de son évolution. Elle suppose que chaque source contienne à la fois sa propre ontologie et les relations sémantiques qui l’articulent a priori avec une ou plusieurs ontologie(s) partagé(s). Une telle source est appelée source de données à base ontologique (BDBO). Pour mettre en œuvre notre approche d’intégration, nous avons d’abord proposé un modèle et une architecture gérant les sources de données à base ontologique. Cette architecture est constituée de quatre parties : les deux premières parties correspondent à la structure usuelle des bases de données : données reposant sur un schéma logique de données, et méta-base décrivant l’ensemble de la structure de tables. Les deux autres parties, originales, représentent respectivement les ontologies et le méta-modèle d’ontologie au sein d’un méta-modèle réflexif. Des mécanismes d’abstraction et de nomination permettent respective- ment d’associer à chaque donnée le concept ontologique qui en définit le sens, et d’accéder aux données à partir des concepts, sans se préoccuper de la représentation des données. Pour la phase d’exploitation de données, nous avons présenté des solutions pour offrir aux administrateurs des structures d’optimisation de requêtes. Étant donné que nous menons des travaux sur cette phase depuis 1996, nous avons proposé des solutions d’optimisation qui peuvent être appliquées aux systèmes d’intégration suivant une architecture matérialisée sous forme d’une base de données traditionnelle ou d’un entrepôt de données relationnels. Nous avons identifié deux types de sélection des structures d’optimisation : une sélection isolée et une sélection multiple. Dans la sélection isolée, nous avons présenté des algorithmes pour la fragmentation horizontale et les index de jointure. Pour la sélection multiple, nous avons étudié le problème de sélection des index de jointure binaire et la fragmentation dérivée en exploitant les similarités entre elles. D’autres problèmes sont également présentés comme le traitement parallèle et la répartition des ressources entre les structures redondantes (les vues matérialisées et les index). Pour faciliter les tâches d’administration, nous avons développé un outil assistant les administrateurs dans leurs tâches pouvant être utilisé avant ou après la création de système d’intégration. La personnalisation est une phase récente de nos travaux. Nous avons d’abord étudié son effet sur la sélection des structures d’optimisation. Récemment, nous avons proposé des solutions permettant la représentation des profils utilisateurs au sein d’une BDBO afin de faciliter leur partage et leur échange.

Contributions to the design and exploitation of data integration systems

Contributions à la conception et l’exploitation de systèmes d’intégration de données

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager