Revisiter le couplage traitement automatique des langues et recherche d'information

Fabienne Moreau

Résumé

Information retrieval systems (IRSs) aim at establishing a relationship between users' information needs and the information contained in documents. To this end, a commonly used method consists of making a simple match between query terms and document words. IRSs face two problems with such a mechanism. The first problem is related to polysemy : a single term may have different meanings and represent various concepts. The second and dual issue reects the fact that a single idea may be expressed in different forms. To overcome these limitations, a more natural solution is to perform a linguistic analysis of both documents and queries, using natural language processing (NLP) techniques. This allows one to consider each word as a single linguistic entity rather than as a simple string of characters, thus providing a more relevant document-query match. However, many previous studies that have tried to enrich IRSs with linguistic information have often resulted in disappointing unclear and and contradictory outputs. In order to better understand and improve upon these weak results, we propose a new approach for coupling NLP-IR. In contrast with other studies, we choose to fully exploit the richness of language by combining several levels of linguistic information : morphological, syntactic and semantic. To test the proposition of linking these various knowledges, we have designed a test platform which integrates them in parallel within the same IRSs ; this serves to demonstrate the clear and significant contribution of several types of information (especially morphological and semantic) and, via an original analysis of the correlations between the various linguistic index, it has highlighted some interesting cases of a complementary nature. Through a supervised machine-learning technique that merges the list of documents produced with each linguistic index, and automatically adapts its behavior to the query's characteristics, we prove how combining multilevel linguistic information can provide better overall results that are also far more stable than comparable tests. Finally, we propose a new method for the acquisition of morphological variants based on unsupervised learning techniques, which provides an even greater impact of this efficient knowledge on the performance of our IRS system. We show that by introducing more flexible tools that are better adapted to the constraints of IR, NLP can make a real contribution to this area.

La principale difficulté des systèmes de recherche d'information (SRI) est d'établir une correspondance entre l'information recherchée par un utilisateur et celle contenue dans leur base documentaire. Pour y parvenir, ils tentent généralement un appariement des mots de la requête posée avec ceux représentant le contenu des documents. Un tel mécanisme, fondé sur une simple comparaison de chaînes de caractères, ne permet cependant pas de prendre en compte le fait qu'un même mot peut posséder plusieurs sens et qu'une même idée peut être formulée de différentes manières. Pour pallier ces difficultés, une solution assez naturelle est de se tourner vers le traitement automatique des langues (TAL) qui, en considérant les mots non comme des chaînes de caractères mais comme des entités linguistiques à part entière, doit offrir un appariement requête-document plus pertinent. Les résultats des nombreux travaux proposant d'enrichir la RI par des informations linguistiques sont toutefois souvent décevants, peu tranchés et contradictoires. Pour comprendre ces faibles résultats et savoir comment les améliorer, nous abordons le couplage TAL-RI sous des angles nouveaux. Contrairement aux autres études, nous choisissons d'exploiter pleinement la richesse de la langue en combinant plusieurs informations linguistiques appartenant aux niveaux morphologique, syntaxique et sémantique. Afin de tester l'intérêt de coupler ces informations, nous proposons une plate-forme intégrant en parallèle ces multiples indices ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces connaissances, et, via une analyse originale des corrélations qu'elles présentent, des cas de complémentarité intéressants. Grâce à une méthode d'apprentissage supervisé qui fusionne les listes de résultats fournis par chaque index linguistique et s'adapte automatiquement aux caractéristiques des requêtes, nous prouvons, par des résultats plus stables qu'habituellement, le gain effectif du couplage d'informations linguistiques multi-niveaux. Enfin, nous proposons une méthode novatrice d'acquisition par apprentissage non supervisé d'informations morphologiques qui permet d'accroître encore l'impact de ces connaissances efficaces sur les performances de notre SRI. Nous montrons ainsi qu'en construisant des outils plus souples et plus adaptés aux contraintes de la RI, l'apport du TAL dans ce domaine est réel.

Revisiter le couplage traitement automatique des langues et recherche d'information

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager