| Fiche détaillée | Thèses |
|
|
| Université Joseph-Fourier - Grenoble I (24/09/2002), Bruandet Marie-France (Dir.) |
|
|
| Liste des fichiers attachés à ce document : | |||||
|
|
|
| Extraction et impact des connaissances sur les performances des systèmes de recherche d'information |
|
|
| Mohamed Hatem Haddad1 |
|
|
| Dans un contexte riche d'information, un système de recherche d'information doit être capable de trouver les meilleurs résultats possibles dans un océan d'information. Notre étude s'intéresse aux connaissances qui peuvent être extraites du contenu textuel des documents en associant la finesse d'analyse d'une approche linguistique (extraction et structuration) à la capacité d'une approche statistique de traiter de gros corpus. L'approche statistique se base sur la fouille de données textuelles et principalement la technique de règles d'association. L'approche linguistique se base sur les syntagmes nominaux que nous considérons comme des entités textuelles plus susceptibles de représenter l'information contenue dans le texte que les termes simples. Elle explicite les contraintes linguistiques nécessaires à l'extraction des syntagmes nominaux et défini les rapports syntagmatiques entre les composantes d'un syntagme nominal. Ces relations syntagmatiques sont exploitées pour la structuration des syntagmes nominaux. Une mesure, appelée ``quantité d'information'', est proposée pour évaluer le pouvoir évocateur de chaque syntagme nominal, filtrer et comparer les syntagmes nominaux. Le modèle proposé démontre que la combinaison d'une approche statistique et d'une approche linguistique affine les connaissances extraites et améliore les performances d'un système de recherche d'information. |
|
|
|
|
|
|
|
|
| 1 : | CLIPS - IMAG - Communication Langagière et Interaction Personne-Système |
|
|
|
|
|
|
| recherche d'information – fouille de données textuelles – modèle d'indexation syntagmatique |
| An information retrieval system is dedicated to find the best possible results in a rich information context. Our study is interested in the knowledge which can be extracted from textual documents contents by associating a linguistic approach to the capacity of a statistical approach to analyze big corpus. The statistical approach is based on Text Data Mining, more precisely on the association rule technique. The linguistic approach is based on noun phrases considered as more adequate to represent document content than single words. It clarifies the needed linguistic constraints for the extraction of noun phrases and explicits the syntagmatic relations between words in noun phrases. These phrasal relations are exploited to structure noun phrases. A measure, namely ``information quantity'', is proposed to estimate the suggestive power of every noun phrase, to filter and compare noun phrases. The proposed model demonstrates that the combination of a statistical approach and a linguistic approach refines the extracted knowledge and increases the performances of an information retrieval system. |
| information retrieval – text mining – noun phrase indexing |
| tel-00004459, version 1 | |
| http://tel.archives-ouvertes.fr/tel-00004459 | |
| oai:tel.archives-ouvertes.fr:tel-00004459 | |
| Contributeur : Thèses Imag | |
| Soumis le : Mardi 3 Février 2004, 15:29:57 | |
| Dernière modification le : Mardi 3 Février 2004, 15:29:57 | |