Extraction et impact des connaissances sur les performances des systèmes de recherche d'information - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2002

Extraction et impact des connaissances sur les performances des systèmes de recherche d'information

Résumé

An information retrieval system is dedicated to find the best possible results in a rich information context. Our study is interested in the knowledge which can be extracted from textual documents contents by associating a linguistic approach to the capacity of a statistical approach to analyze big corpus. The statistical approach is based on Text Data Mining, more precisely on the association rule technique. The linguistic approach is based on noun phrases considered as more adequate to represent document content than single words. It clarifies the needed linguistic constraints for the extraction of noun phrases and explicits the syntagmatic relations between words in noun phrases. These phrasal relations are exploited to structure noun phrases. A measure, namely ``information quantity'', is proposed to estimate the suggestive power of every noun phrase, to filter and compare noun phrases. The proposed model demonstrates that the combination of a statistical approach and a linguistic approach refines the extracted knowledge and increases the performances of an information retrieval system.
Dans un contexte riche d'information, un système de recherche d'information doit être capable de trouver les meilleurs résultats possibles dans un océan d'information. Notre étude s'intéresse aux connaissances qui peuvent être extraites du contenu textuel des documents en associant la finesse d'analyse d'une approche linguistique (extraction et structuration) à la capacité d'une approche statistique de traiter de gros corpus. L'approche statistique se base sur la fouille de données textuelles et principalement la technique de règles d'association. L'approche linguistique se base sur les syntagmes nominaux que nous considérons comme des entités textuelles plus susceptibles de représenter l'information contenue dans le texte que les termes simples. Elle explicite les contraintes linguistiques nécessaires à l'extraction des syntagmes nominaux et défini les rapports syntagmatiques entre les composantes d'un syntagme nominal. Ces relations syntagmatiques sont exploitées pour la structuration des syntagmes nominaux. Une mesure, appelée ``quantité d'information'', est proposée pour évaluer le pouvoir évocateur de chaque syntagme nominal, filtrer et comparer les syntagmes nominaux. Le modèle proposé démontre que la combinaison d'une approche statistique et d'une approche linguistique affine les connaissances extraites et améliore les performances d'un système de recherche d'information.
Fichier principal
Vignette du fichier
tel-00004459.pdf (1.29 Mo) Télécharger le fichier

Dates et versions

tel-00004459 , version 1 (03-02-2004)

Identifiants

  • HAL Id : tel-00004459 , version 1

Citer

Mohamed Hatem Haddad. Extraction et impact des connaissances sur les performances des systèmes de recherche d'information. domain_stic.gest. Université Joseph-Fourier - Grenoble I, 2002. Français. ⟨NNT : ⟩. ⟨tel-00004459⟩

Collections

UGA IMAG CNRS UJF
447 Consultations
808 Téléchargements

Partager

Gmail Facebook X LinkedIn More