Revisiter le couplage traitement automatique des langues et recherche d'information

Fabienne Moreau 1
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : La principale difficulté des systèmes de recherche d'information (SRI) est d'établir une correspondance entre l'information recherchée par un utilisateur et celle contenue dans leur base documentaire. Pour y parvenir, ils tentent généralement un appariement des mots de la requête posée avec ceux représentant le contenu des documents. Un tel mécanisme, fondé sur une simple comparaison de chaînes de caractères, ne permet cependant pas de prendre en compte le fait qu'un même mot peut posséder plusieurs sens et qu'une même idée peut être formulée de différentes manières. Pour pallier ces difficultés, une solution assez naturelle est de se tourner vers le traitement automatique des langues (TAL) qui, en considérant les mots non comme des chaînes de caractères mais comme des entités linguistiques à part entière, doit offrir un appariement requête-document plus pertinent. Les résultats des nombreux travaux proposant d'enrichir la RI par des informations linguistiques sont toutefois souvent décevants, peu tranchés et contradictoires. Pour comprendre ces faibles résultats et savoir comment les améliorer, nous abordons le couplage TAL-RI sous des angles nouveaux. Contrairement aux autres études, nous choisissons d'exploiter pleinement la richesse de la langue en combinant plusieurs informations linguistiques appartenant aux niveaux morphologique, syntaxique et sémantique. Afin de tester l'intérêt de coupler ces informations, nous proposons une plate-forme intégrant en parallèle ces multiples indices ; elle conduit à montrer l'apport significatif et tranché de plusieurs de ces connaissances, et, via une analyse originale des corrélations qu'elles présentent, des cas de complémentarité intéressants. Grâce à une méthode d'apprentissage supervisé qui fusionne les listes de résultats fournis par chaque index linguistique et s'adapte automatiquement aux caractéristiques des requêtes, nous prouvons, par des résultats plus stables qu'habituellement, le gain effectif du couplage d'informations linguistiques multi-niveaux. Enfin, nous proposons une méthode novatrice d'acquisition par apprentissage non supervisé d'informations morphologiques qui permet d'accroître encore l'impact de ces connaissances efficaces sur les performances de notre SRI. Nous montrons ainsi qu'en construisant des outils plus souples et plus adaptés aux contraintes de la RI, l'apport du TAL dans ce domaine est réel.
Type de document :
Thèse
Liste complète des métadonnées

Littérature citée [208 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00524514
Contributeur : Patrick Gros <>
Soumis le : vendredi 8 octobre 2010 - 09:42:53
Dernière modification le : vendredi 16 novembre 2018 - 01:21:49
Document(s) archivé(s) le : lundi 10 janvier 2011 - 11:39:19

Identifiants

  • HAL Id : tel-00524514, version 1

Citation

Fabienne Moreau. Revisiter le couplage traitement automatique des langues et recherche d'information. Interface homme-machine [cs.HC]. Université Rennes 1, 2006. Français. ⟨tel-00524514⟩

Partager

Métriques

Consultations de la notice

387

Téléchargements de fichiers

980