A Resource-Oriented Architecture for Integration and Exploitation of Linked Data

Résumé : Cette thèse porte sur l'intégration de données brutes provenant de sources hétérogènes sur le Web. L'objectif global est de fournir une architecture générique et modulable capable de combiner, de façon sémantique et intelligente, ces données hétérogènes dans le but de les rendre réutilisables. Ce travail est motivé par un scenario réel de l'entreprise Audience Labs permettant une mise à l'échelle de cette architecture. Dans ce rapport, nous proposons de nouveaux modèles et techniques permettant d'adapter le processus de combinaison et d'intégration à la diversité des sources de données impliquées. Les problématiques sont une gestion transparente et dynamique des sources de données, passage à l'échelle et responsivité par rapport au nombre de sources, adaptabilité au caractéristiques de sources, et finalement, consistance des données produites(données cohérentes, sans erreurs ni doublons). Pour répondre à ces problématiques, nous proposons un méta-modèle pour représenter ces sources selon leurs caractéristiques, liées à l'accès (URI) ou à l'extraction (format) des données, mais aussi au capacités physiques des sources (latence, volume). En s'appuyant sur cette formalisation, nous proposent différentes stratégies d'accès aux données, afin d'adapter les traitements aux spécificités des sources. En se basant sur ces modèles et stratégies, nous proposons une architecture orientée ressource, ou tout les composants sont accessibles par HTTP via leurs URI. En se basant sur les caractéristiques des sources, sont générés des workflows d'exécution spécifiques et adapté, permettant d'orchestrer les différentes taches du processus d'intégration de façon optimale, en donnant différentes priorités à chacune des tâches. Ainsi, les temps de traitements sont diminuées, ainsi que les volumes des données échangées. Afin d'améliorer la qualité des données produites par notre approches, l'accent est mis sur l'incertitude qui peut apparaître dans les données sur le Web. Nous proposons un modèle, permettant de représenter cette incertitude, au travers du concept de ressource Web incertaines, basé sur un modèle probabiliste ou chaque ressource peut avoir plusieurs représentation possibles, avec une certaine probabilité. Cette approche sera à l'origine d'une nouvelle optimisation de l'architecture pour permettre de prendre en compte l'incertitude pendant la combinaison des données
Type de document :
Thèse
Hardware Architecture [cs.AR]. Université de Lyon, 2016. English. 〈NNT : 2016LYSE1176〉
Liste complète des métadonnées

Littérature citée [25 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01422057
Contributeur : Abes Star <>
Soumis le : vendredi 23 décembre 2016 - 15:35:06
Dernière modification le : vendredi 10 novembre 2017 - 01:20:27
Document(s) archivé(s) le : lundi 20 mars 2017 - 23:08:47

Fichier

TH2016DEVETTORPIERRE.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01422057, version 1

Collections

Citation

Pierre De Vettor. A Resource-Oriented Architecture for Integration and Exploitation of Linked Data. Hardware Architecture [cs.AR]. Université de Lyon, 2016. English. 〈NNT : 2016LYSE1176〉. 〈tel-01422057〉

Partager

Métriques

Consultations de la notice

357

Téléchargements de fichiers

207