Extraction et impact des connaissances sur les performances des systèmes de recherche d'information

Mohamed Hatem Haddad

Thèse Année : 2002

Extraction et impact des connaissances sur les performances des systèmes de recherche d'information

(1)

Mohamed Hatem Haddad

Fonction : Auteur

Communication Langagière et Interaction Personne-Système

Résumé

An information retrieval system is dedicated to find the best possible results in a rich information context. Our study is interested in the knowledge which can be extracted from textual documents contents by associating a linguistic approach to the capacity of a statistical approach to analyze big corpus. The statistical approach is based on Text Data Mining, more precisely on the association rule technique. The linguistic approach is based on noun phrases considered as more adequate to represent document content than single words. It clarifies the needed linguistic constraints for the extraction of noun phrases and explicits the syntagmatic relations between words in noun phrases. These phrasal relations are exploited to structure noun phrases. A measure, namely ``information quantity'', is proposed to estimate the suggestive power of every noun phrase, to filter and compare noun phrases. The proposed model demonstrates that the combination of a statistical approach and a linguistic approach refines the extracted knowledge and increases the performances of an information retrieval system.

Dans un contexte riche d'information, un système de recherche d'information doit être capable de trouver les meilleurs résultats possibles dans un océan d'information. Notre étude s'intéresse aux connaissances qui peuvent être extraites du contenu textuel des documents en associant la finesse d'analyse d'une approche linguistique (extraction et structuration) à la capacité d'une approche statistique de traiter de gros corpus. L'approche statistique se base sur la fouille de données textuelles et principalement la technique de règles d'association. L'approche linguistique se base sur les syntagmes nominaux que nous considérons comme des entités textuelles plus susceptibles de représenter l'information contenue dans le texte que les termes simples. Elle explicite les contraintes linguistiques nécessaires à l'extraction des syntagmes nominaux et défini les rapports syntagmatiques entre les composantes d'un syntagme nominal. Ces relations syntagmatiques sont exploitées pour la structuration des syntagmes nominaux. Une mesure, appelée ``quantité d'information'', est proposée pour évaluer le pouvoir évocateur de chaque syntagme nominal, filtrer et comparer les syntagmes nominaux. Le modèle proposé démontre que la combinaison d'une approche statistique et d'une approche linguistique affine les connaissances extraites et améliore les performances d'un système de recherche d'information.

Mots clés

information retrieval text mining noun phrase indexing

recherche d'information fouille de données textuelles modèle d'indexation syntagmatique

Domaines

Interface homme-machine [cs.HC]

Fichier principal

tel-00004459.pdf (1.29 Mo)

Thèses Imag : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00004459

Soumis le : mardi 3 février 2004-15:29:57

Dernière modification le : jeudi 4 avril 2024-21:21:42

Archivage à long terme le : vendredi 2 avril 2010-20:14:35

Dates et versions

tel-00004459 , version 1 (03-02-2004)

Identifiants

HAL Id : tel-00004459 , version 1

Citer

Mohamed Hatem Haddad. Extraction et impact des connaissances sur les performances des systèmes de recherche d'information. domain_stic.gest. Université Joseph-Fourier - Grenoble I, 2002. Français. ⟨NNT : ⟩. ⟨tel-00004459⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA IMAG CNRS UJF

447 Consultations

808 Téléchargements

Extraction et impact des connaissances sur les performances des systèmes de recherche d'information

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager