Un modèle d'indexation pour les documents textuels structurés - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 1996

An indexing model for structured textual documents

Un modèle d'indexation pour les documents textuels structurés

Résumé

Most indexing models in information retrieval are dedicated to a particular domain or application, and do not exploit the richness of electronic documents. The goal of this work is to define an indexing model for textual documents that includes structure and other complementary information to the discourse. The proposed model consists of two components: the representation language, which defines at a conceptual level the information in the document, including the index themselves, and the derivation rules, which are based on this language and enable to deduce a particular kind of index, the themes. Indexing in our model does not only produce a static representation of documents, but is also dynamically linked to the correspondence process; in this way, selection of themes, as determined by the rules, is a function of the document and the user. Our approach was validated in two steps. First, a questionnaire was submitted to a group of users in order to understand their process of theme derivation. This a priori validation showed the validity of our derivation rules. Then, in an a posteriori validation, the model was implemented and tested on a collection of sgml documents. This experimentation showed the applicability and flexibility of the model.
La plupart des modèles d'indexation en recherche d'informations sont spécifiques à une application ou à un domaine particulier, et n'exploitent pas toute la richesse des documents électroniques. Le but de ce travail est de définir un modèle d'indexation pour les documents textuels qui tienne compte de la structure et d'autres informations complémentaires au discours. Le modèle proposé comporte deux composantes : le langage de représentation, qui définit de façon conceptuelle les informations du document, y compris les index eux-mêmes, et les règles de dérivation, qui, reprenant ce langage, permettent de déduire un type particulier d'index, les thèmes. L'indexation dans notre modèle ne se contente pas de produire une représentation statique du document, mais elle est aussi dynamiquement liée au processus de correspondance ; ainsi, le choix des thèmes, tels que déterminés par les règles, est fonction du document et de l'utilisateur. Notre approche a été validée en deux temps. D'abord, un questionnaire a été soumis à un groupe d'utilisateurs afin de cerner leur processus de dérivation de thèmes. Cette validation à priori a permis de démontrer le bien-fondé de nos règles de dérivation. Puis, dans une validation à posteriori, le modèle a été implémenté et testé sur une collection de documents sgml. Cette expérimentation a demontré l'applicabilité et la flexibilité du modèle.
Fichier principal
Vignette du fichier
tel-00005009.pdf (3.08 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00005009 , version 1 (23-02-2004)

Identifiants

  • HAL Id : tel-00005009 , version 1

Citer

Francois Paradis. Un modèle d'indexation pour les documents textuels structurés. Interface homme-machine [cs.HC]. Université Joseph-Fourier - Grenoble I, 1996. Français. ⟨NNT : ⟩. ⟨tel-00005009⟩

Collections

UGA IMAG CNRS UJF
1259 Consultations
484 Téléchargements

Partager

Gmail Facebook X LinkedIn More