Vers la conception de documents composites : extraction et organisation de l'information pertinente - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2008

Toward composite documents conception : extraction and organisation of relevant information

Vers la conception de documents composites : extraction et organisation de l'information pertinente

Résumé

In recent years, information retrieval has expanded its area to the development of applications whose purpose is not solely to help the user to locate the relevant documents, but also try to build a synthetic answer as response to his expressed information needs. In this context, this thesis focuses on the production of an entity, called composite document, representing an overview of the different types of information that the user can find, in connection with his request, in the corpus in concern. After being concerned about the method of extraction and selection of fragments of text to be included in the composite document, the study has finally led to the setting up of a multi-objective algorithm, which aims at finding the thematic segments subset maximizing two criteria of query proximity and thematic representativeness. Beyond the composite document conception, the realized contributions concern the thematic segmentation and its evaluation, the relevance estimations and similarity computations, the impact of the thematic individualization in the field of information retrieval, the evaluation of systems presenting search results in term of a clusters set and, at last, the ways of query consideration in texts clustering process.
Au cours de ces dernières années, le domaine de la recherche d'information s'est élargi à la mise en place d'applications ne visant plus uniquement à aider l'utilisateur dans sa tâche de localisation des documents pertinents, mais cherchant à lui construire une réponse synthétique permettant de satisfaire ses besoins en information. Dans ce contexte, cette thèse se concentre sur la production d'une entité, appelée document composite, représentant un aperçu des différents types d'information que l'utilisateur pourra trouver, en rapport avec sa requête, dans le corpus interrogé. Après s'être interrogés sur le mode d'extraction et de sélection des fragments de texte à faire figurer dans ce document composite, l'étude réalisée nous a finalement conduits à la mise en place d'un algorithme multi-objectifs, de recherche du sous-ensemble de segments thématiques maximisant conjointement un critère de proximité à la requête et un critère de représentativité des thématiques abordées par les documents considérés. Outre la conception du document composite qui est l'objectif central de cette thèse, les contributions réalisées concernent le découpage des documents et son évaluation, les mesures de pertinence et de similarité des textes, l'impact que peut avoir l'individualisation des thématiques en recherche d'information, le mode d'évaluation des systèmes utilisant un clustering des résultats et enfin, la prise en considération de la requête dans les processus de clustering.
Fichier principal
Vignette du fichier
these.pdf (2.46 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00417551 , version 1 (16-09-2009)

Identifiants

  • HAL Id : tel-00417551 , version 1

Citer

Sylvain Lamprier. Vers la conception de documents composites : extraction et organisation de l'information pertinente. Interface homme-machine [cs.HC]. Université d'Angers, 2008. Français. ⟨NNT : ⟩. ⟨tel-00417551⟩
311 Consultations
692 Téléchargements

Partager

Gmail Facebook X LinkedIn More