Un modèle d'indexation pour les documents textuels structurés

Francois Paradis

Thèse Année : 1996

An indexing model for structured textual documents

Un modèle d'indexation pour les documents textuels structurés

(1)

Francois Paradis

Fonction : Auteur

Communication Langagière et Interaction Personne-Système

Résumé

Most indexing models in information retrieval are dedicated to a particular domain or application, and do not exploit the richness of electronic documents. The goal of this work is to define an indexing model for textual documents that includes structure and other complementary information to the discourse. The proposed model consists of two components: the representation language, which defines at a conceptual level the information in the document, including the index themselves, and the derivation rules, which are based on this language and enable to deduce a particular kind of index, the themes. Indexing in our model does not only produce a static representation of documents, but is also dynamically linked to the correspondence process; in this way, selection of themes, as determined by the rules, is a function of the document and the user. Our approach was validated in two steps. First, a questionnaire was submitted to a group of users in order to understand their process of theme derivation. This a priori validation showed the validity of our derivation rules. Then, in an a posteriori validation, the model was implemented and tested on a collection of sgml documents. This experimentation showed the applicability and flexibility of the model.

La plupart des modèles d'indexation en recherche d'informations sont spécifiques à une application ou à un domaine particulier, et n'exploitent pas toute la richesse des documents électroniques. Le but de ce travail est de définir un modèle d'indexation pour les documents textuels qui tienne compte de la structure et d'autres informations complémentaires au discours. Le modèle proposé comporte deux composantes : le langage de représentation, qui définit de façon conceptuelle les informations du document, y compris les index eux-mêmes, et les règles de dérivation, qui, reprenant ce langage, permettent de déduire un type particulier d'index, les thèmes. L'indexation dans notre modèle ne se contente pas de produire une représentation statique du document, mais elle est aussi dynamiquement liée au processus de correspondance ; ainsi, le choix des thèmes, tels que déterminés par les règles, est fonction du document et de l'utilisateur. Notre approche a été validée en deux temps. D'abord, un questionnaire a été soumis à un groupe d'utilisateurs afin de cerner leur processus de dérivation de thèmes. Cette validation à priori a permis de démontrer le bien-fondé de nos règles de dérivation. Puis, dans une validation à posteriori, le modèle a été implémenté et testé sur une collection de documents sgml. Cette expérimentation a demontré l'applicabilité et la flexibilité du modèle.

Mots clés

information retrieval indexing model theme extraction electronic representation of documents structured textual documents.

recherche d'informations modèle d'indexation extraction de thèmes représentation électronique de documents documents textuels structurés

Domaines

Interface homme-machine [cs.HC]

Fichier principal

tel-00005009.pdf (3.08 Mo)

Thèses Imag : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00005009

Soumis le : lundi 23 février 2004-17:11:04

Dernière modification le : jeudi 4 avril 2024-21:34:54

Archivage à long terme le : vendredi 14 septembre 2012-10:40:44

Dates et versions

tel-00005009 , version 1 (23-02-2004)

Identifiants

HAL Id : tel-00005009 , version 1

Citer

Francois Paradis. Un modèle d'indexation pour les documents textuels structurés. Interface homme-machine [cs.HC]. Université Joseph-Fourier - Grenoble I, 1996. Français. ⟨NNT : ⟩. ⟨tel-00005009⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA IMAG CNRS UJF

1259 Consultations

484 Téléchargements

An indexing model for structured textual documents

Un modèle d'indexation pour les documents textuels structurés

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager