Approches hybrides pour la recherche sémantique de l'information : intégration des bases de connaissances et des ressources semi-structurées

Résumé : La recherche sémantique de l'information a connu un nouvel essor avec les nouvelles technologies du Web sémantique. Des langages standards permettent aujourd'hui aux logiciels de communiquer par le biais de données écrites dans le vocabulaire d'ontologies de domaine décrivant une sémantique explicite. Cet accès ``sémantique'' à l'information requiert la disponibilité de bases de connaissances décrivant les instances des ontologies de domaine. Cependant, ces bases de connaissances, bien que de plus en plus riches, contiennent relativement peu d'information par comparaison au volume des informations contenu dans les documents du Web.La recherche sémantique de l'information atteint ainsi certaines limites par comparaison à la recherche classique de l'information qui exploite plus largement ces documents. Ces limites se traduisent explicitement par l'absence d'instances de concepts et de relations dans les bases de connaissances construites à partir des documents du Web. Dans cette thèse nous étudions deux directions de recherche différentes afin de permettre de répondre à des requêtes sémantiques dans de tels cas. Notre première étude porte sur la reformulation des requêtes sémantiques des utilisateurs afin d'atteindre des parties de document pertinentes à la place des faits recherchés et manquants dans les bases de connaissances. La deuxième problématique que nous étudions est celle de l'enrichissement des bases de connaissances par des instances de relations.Nous proposons deux solutions pour ces problématiques en exploitant des documents semi-structurés annotés par des concepts ou des instances de concepts. Un des points clés de ces solutions est qu'elles permettent de découvrir des instances de relations sémantiques sans s'appuyer sur des régularités lexico-syntaxiques ou structurelles dans les documents. Nous situons ces deux approches dans la littérature et nous les évaluons avec plusieurs corpus réels extraits du Web. Les résultats obtenus sur des corpus de citations bibliographiques, des corpus d'appels à communication et des corpus géographiques montrent que ces solutions permettent effectivement de retrouver de nouvelles instances relations à partir de documents hétérogènes tout en contrôlant efficacement leur précision.
Type de document :
Thèse
Autre [cs.OH]. Université Paris Sud - Paris XI, 2012. Français. 〈NNT : 2012PA112135〉
Liste complète des métadonnées

Littérature citée [42 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00737282
Contributeur : Abes Star <>
Soumis le : lundi 1 octobre 2012 - 14:37:10
Dernière modification le : mardi 24 avril 2018 - 13:39:08
Document(s) archivé(s) le : mercredi 2 janvier 2013 - 06:45:18

Fichier

VA2_MRABET_YASSIN_12072012.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-00737282, version 1

Collections

Citation

Yassine Mrabet. Approches hybrides pour la recherche sémantique de l'information : intégration des bases de connaissances et des ressources semi-structurées. Autre [cs.OH]. Université Paris Sud - Paris XI, 2012. Français. 〈NNT : 2012PA112135〉. 〈tel-00737282〉

Partager

Métriques

Consultations de la notice

916

Téléchargements de fichiers

711