Intégration holistique et entreposage automatique des données ouvertes - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2015

Holistic integration and automatic warehousing of open data

Intégration holistique et entreposage automatique des données ouvertes

Résumé

Statistical Open Data present useful information to feed up a decision-making system. Their integration and storage within these systems is achieved through ETL processes. It is necessary to automate these processes in order to facilitate their accessibility to non-experts. These processes have also need to face out the problems of lack of schemes and structural and sematic heterogeneity, which characterize the Open Data. To meet these issues, we propose a new ETL approach based on graphs. For the extraction, we propose automatic activities performing detection and annotations based on a model of a table. For the transformation, we propose a linear program fulfilling holistic integration of several graphs. This model supplies an optimal and a unique solution. For the loading, we propose a progressive process for the definition of the multidimensional schema and the augmentation of the integrated graph. Finally, we present a prototype and the experimental evaluations.
Les statistiques présentes dans les Open Data ou données ouvertes constituent des informations utiles pour alimenter un système décisionnel. Leur intégration et leur entreposage au sein du système décisionnel se fait à travers des processus ETL. Il faut automatiser ces processus afin de faciliter leur accessibilité à des non-experts. Ces processus doivent pallier aux problèmes de manque de schémas, d'hétérogénéité structurelle et sémantique qui caractérisent les données ouvertes. Afin de répondre à ces problématiques, nous proposons une nouvelle démarche ETL basée sur les graphes. Pour l'extraction du graphe d'un tableau, nous proposons des activités de détection et d'annotation automatiques. Pour la transformation, nous proposons un programme linéaire pour résoudre le problème d'appariement holistique de données structurelles provenant de plusieurs graphes. Ce modèle fournit une solution optimale et unique. Pour le chargement, nous proposons un processus progressif pour la définition du schéma multidimensionnel et l'augmentation du graphe intégré. Enfin, nous présentons un prototype et les résultats d'expérimentations.
Fichier principal
Vignette du fichier
2015TOU30214.pdf (3.87 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01379531 , version 1 (11-10-2016)

Identifiants

  • HAL Id : tel-01379531 , version 1

Citer

Imen Megdiche. Intégration holistique et entreposage automatique des données ouvertes. Réseaux et télécommunications [cs.NI]. Université Paul Sabatier - Toulouse III, 2015. Français. ⟨NNT : 2015TOU30214⟩. ⟨tel-01379531⟩
370 Consultations
305 Téléchargements

Partager

Gmail Facebook X LinkedIn More