Integrating heterogeneous data sources in the Web of data

Résumé : Le succès du Web de Données repose largement sur notre capacité à atteindre les données stockées dans des silos invisibles du web. Dans les 15 dernières années, des travaux ont entrepris d’exposer divers types de données structurées au format RDF. Dans le même temps, le marché des bases de données (BdD) est devenu très hétérogène avec le succès massif des BdD NoSQL. Celles-ci sont potentiellement d’importants fournisseurs de données liées. Aussi, l’objectif de cette thèse est de permettre l’intégration en RDF de sources de données hétérogènes, et notamment d'alimenter le Web de Données avec les données issues des BdD NoSQL. Nous proposons un langage générique, xR2RML, pour décrire le mapping de sources hétérogènes vers une représentation RDF arbitraire. Ce langage étend des travaux précédents sur la traduction de sources relationnelles, CSV/TSV et XML en RDF. Sur cette base, nous proposons soit de matérialiser les données RDF, soit d'évaluer dynamiquement des requêtes SPARQL sur la base native. Dans ce dernier cas, nous proposons une approche en deux étapes : (i) traduction d’une requête SPARQL en une requête pivot, abstraite, en se basant sur le mapping xR2RML ; (ii) traduction de la requête abstraite en une requête concrète, prenant en compte les spécificités du langage de requête de la BdD cible. Un souci particulier est apporté à l'optimisation des requêtes, aux niveaux abstrait et concret. Nous démontrons l’applicabilité de notre approche via un prototype pour la populaire base MongoDB. Nous avons validé la méthode dans un cas d’utilisation réel issu du domaine des humanités numériques.
Type de document :
Thèse
Other [cs.OH]. Université Côte d'Azur, 2017. English. 〈NNT : 2017AZUR4002〉
Liste complète des métadonnées

Littérature citée [177 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01619638
Contributeur : Abes Star <>
Soumis le : jeudi 19 octobre 2017 - 15:16:07
Dernière modification le : vendredi 20 octobre 2017 - 01:16:09

Fichier

2017AZUR4002.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01619638, version 1

Collections

STAR | UNICE | I3S

Citation

Franck Michel. Integrating heterogeneous data sources in the Web of data. Other [cs.OH]. Université Côte d'Azur, 2017. English. 〈NNT : 2017AZUR4002〉. 〈tel-01619638〉

Partager

Métriques

Consultations de
la notice

107

Téléchargements du document

28