Skip to Main content Skip to Navigation
Theses

Modèle flexible pour la Recherche d'Information dans des corpus de documents semi-structurés

Karen Sauvagnat 1
1 IRIT-SIG - Systèmes d’Informations Généralisées
IRIT - Institut de recherche en informatique de Toulouse
Résumé : La nature de sources d'information évolue, et les documents numériques traditionnels plats ne contenant que du texte s'enrichissent d'information structurelle et multimédia. Cette évolution est accélérée par l'expansion du Web, et les documents semi-structurés de type XML (eXtensible Markup Language) tendent à former la majorité des documents numériques mis à disposition des utilisateurs. Le développement d'outils automatisés permettant un accès efficace à ce nouveau type d'information numérique apparaît comme une nécessité. Afin de valoriser au mieux l'ensemble des informations disponibles, les méthodes existantes de Recherche d'Information (RI) doivent être adaptées. L'information structurelle des documents peut en effet servir à affiner le concept de granule documentaire. Le but pour les Systèmes de Recherche d'Information (SRI) est alors de retrouver des unités d'information (et non plus de documents) pertinentes à des requêtes utilisateur. Afin de répondre à cette problématique fondamentale, de nouveaux modèles prenant en compte l'information structurelle des documents, tant au niveau de l'indexation, de l'interrogation que de la recherche doivent être construits. L'objectif de nos travaux est de proposer un modèle permettant d'effectuer des recherches flexibles dans des corpus de document semi-structurés. Ceci nous a conduit à proposer le modèle XFIRM (XML Flexible Information Retrieval Model ) reposant sur : (i) Un modèle de représentation des données générique, permettant de modéliser des documents possédant des structures différentes ; (ii) Un langage de requête flexible, permettant à l'utilisateur d'exprimer son besoin selon divers degrés de précision, en exprimant ou non des conditions sur la structure des documents ; (iii) Un modèle de recherche basée sur une méthode de propagation de la pertinence. Ce modèle a pour but de trouver les unités d'information les plus exhaustives et spécifiques répondant à une requête utilisateur, que celle-ci contienne ou non des conditions de structure. Les documents semi-structurés peuvent être représentés sous forme arborescente, et le but est alors de trouver les sous-arbres de taille minimale répondant à la requête. Les recherches sur le contenu seul des documents sont effectuées en prenant en compte les importances diverses des feuilles des sous-arbres, et en plaçant ces derniers dans leur contexte, c'est à dire, en tenant compte de la pertinence du document. Les recherches portant à la fois sur le contenu et la structure des documents sont effectuées grâce à plusieurs propagations de pertinence dans l'arbre du document, et ce afin d'effectuer une correspondance vague entre l'arbre du document et l'arbre de la requête. L'évaluation de notre modèle, grâce au prototype que nous avons développé, montre l'intérêt de nos propositions, que ce soit pour effectuer des recherches sur le contenu seul des documents que sur le contenu et la structure.
Document type :
Theses
Complete list of metadatas

Cited literature [212 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-00359579
Contributor : Lynda Lechani <>
Submitted on : Sunday, February 8, 2009 - 5:21:34 PM
Last modification on : Thursday, June 18, 2020 - 4:20:02 PM
Document(s) archivé(s) le : Tuesday, June 8, 2010 - 6:49:14 PM

Identifiers

  • HAL Id : tel-00359579, version 1

Citation

Karen Sauvagnat. Modèle flexible pour la Recherche d'Information dans des corpus de documents semi-structurés. Informatique [cs]. Université Paul Sabatier - Toulouse III, 2005. Français. ⟨tel-00359579⟩

Share

Metrics

Record views

375

Files downloads

1280