Concise Pattern Learning for RDF Data Sets Interlinking

Zhengjie Fan 1, 2
2 MOEX - Evolution de la connaissance
Inria Grenoble - Rhône-Alpes, LIG - Laboratoire d'Informatique de Grenoble
Résumé : De nombreux jeux de données sont publiés sur le web à l’aide des technologies du web sémantique. Ces jeux de données contiennent des données qui représentent des liens vers des ressources similaires. Si ces jeux de données sont liés entre eux par des liens construits correctement, les utilisateurs peuvent facilement interroger des données à travers une interface uniforme, comme s’ils interrogeaient un jeu de données unique. Mais, trouver des liens corrects est très difficile car de nombreuses comparaisons doivent être effectuées. Plusieurs solutions ont été proposées pour résoudre ce problème : (1) l’approche la plus directe est de comparer les valeurs d’attributs d’instances pour identifier les liens, mais il est impossible de comparer toutes les paires possibles de valeurs d’attributs. (2) Une autre stratégie courante consiste à comparer les instances selon les attribut correspondants trouvés par l’alignement d’ontologies à base d’instances, qui permet de générer des correspondances d’attributs basés sur des instances. Cependant, il est difficile d’identifier des instances similaires à travers les ensembles de données car,dans certains cas, les valeurs des attributs en correspondance ne sont pas les mêmes.(3) Plusieurs méthodes utilisent la programmation génétique pour construire des modèles d’interconnexion afin de comparer différentes instances, mais elles souffrent de longues durées d’exécution.Dans cette thèse, une méthode d’interconnexion est proposée pour relier les instances similaires dans différents ensembles de données, basée à la fois sur l’apprentissage statistique et sur l’apprentissage symbolique. L’entrée est constituée de deux ensembles de données, des correspondances de classes sur les deux ensembles de données et un échantillon de liens “positif” ou “négatif” résultant d’une évaluation de l’utilisateur. La méthode construit un classifieur qui distingue les bons liens des liens incorrects dans deux ensembles de données RDF en utilisant l’ensemble des liens d’échantillons évalués. Le classifieur est composé de correspondances d’attributs entre les classes correspondantes et de deux ensembles de données,qui aident à comparer les instances et à établir les liens. Le classifieur est appelé motif d’interconnexion dans cette thèse. D’une part, notre méthode découvre des correspondances potentielles entre d’attributs pour chaque correspondance de classe via une méthode d’apprentissage statistique : l’algorithme de regroupement K-medoids,en utilisant des statistiques sur les valeurs des instances. D’autre part, notre solution s’appuie sur un modèle d’interconnexion par une méthode d’apprentissage symbolique: l’espace des versions, basée sur les correspondances d’attributs potentielles découvertes et l’ensemble des liens de l’échantillon évalué. Notre méthode peut résoudre la tâche d’interconnexion quand il n’existe pas de motif d’interconnexion combiné qui couvre tous les liens corrects évalués avec un format concis.L’expérimentation montre que notre méthode d’interconnexion, avec seulement1% des liens totaux dans l’échantillon, atteint une F-mesure élevée (de 0,94 à 0,99).
Type de document :
Thèse
Databases [cs.DB]. Université de Grenoble, 2014. English. 〈NNT : 2014GRENM013〉
Liste complète des métadonnées

Littérature citée [136 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00986104
Contributeur : Abes Star <>
Soumis le : mardi 27 juin 2017 - 15:55:10
Dernière modification le : mercredi 23 mai 2018 - 01:26:26
Document(s) archivé(s) le : mercredi 17 janvier 2018 - 21:33:52

Fichier

38947_FAN_2014_diffusion.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-00986104, version 2

Collections

Citation

Zhengjie Fan. Concise Pattern Learning for RDF Data Sets Interlinking. Databases [cs.DB]. Université de Grenoble, 2014. English. 〈NNT : 2014GRENM013〉. 〈tel-00986104v2〉

Partager

Métriques

Consultations de la notice

181

Téléchargements de fichiers

163