Un système de recherche d'information adapté aux données incertaines : adaptation du modèle de langue

Caroline Tambellini

Résumé

An information retrieval system is based on a formal methodology to assert if terms documents correspond to terms of queries. Most of these systems assume that terms extracted from documents are perfectly recognized which involves that their matching function can consider the equality between terms of documents and terms of queries.
Our work occurs in a context where data are not perfectly recognized and thus considered as uncertain. In this case, the equality between terms of documents and terms of queries may be change to the context of 'almost equality'. We propose an information retrieval system adapted to the uncertain data and based on the language model. We introduce the concept of pairing which measures 'almost equality' between two terms by the concordance and the intersection values. The pairing is also introduced in the matching function. Furthermore, the matching function is extended to take into account the extracted terms certainty value computed by an interpretation system. Basic assumptions of information retrieval such as Zipf's law and Luhn's conjecture are first checked. Then, our model is implemented.
Our model is experimentally validated and compared with systems which do not integrate the concept of uncertainty. Finally, we present a tool dedicated to phone meeting which is an application using an information retrieval system adapted to the uncertain data.

Tout système de recherche d'information développe une méthodologie formelle ou opérationnelle pour affirmer si les termes de chaque document correspondent à ceux de la requête. La plupart de ces systèmes s'appuie sur l'hypothèse que les termes extraits des documents ont été parfaitement reconnus ou identifiés, et de fait leur fonction de correspondance repose sur une capacité à disposer d'une relation d'égalité entre terme du document et terme de la requête.
Notre travail se positionne dans le cas où les données ne s'avèrent pas parfaitement reconnues et donc qualifiées d'incertaines. Dans ce contexte, l'égalité entre termes du document et termes de la requête est remise en cause pour laisser place à la notion de ‘presque égalité'. Nous proposons un système de recherche d'informations adapté aux données incertaines et basé sur le modèle de langue. Nous introduisons la notion d'appariement qui mesure la ‘presque égalité' entre deux termes par le biais de la concordance et de l'intersection. L'appariement s'intègre à la fonction de correspondance. De plus, la valeur de certitude d'extraction des termes fournie par un système d'interprétation s'insère dans la fonction de pondération. Préalablement à la mise en place d'un tel modèle, nous vérifions l'applicabilité des hypothèses de base de la recherche d'information, à savoir la loi de Zipf et la conjecture de Luhn, à des données issues de l'oral, exemple de données incertaines.
Le modèle proposé est validé expérimentalement et comparé à des systèmes n'intégrant pas la notion d'incertitude. Enfin, nous présentons une application possible utilisant un système de recherche adapté aux données incertaines : un outil d'aide à la réunion téléphonique.

An information retrieval system adapted to uncertain data: adaptation of language model

Un système de recherche d'information adapté aux données incertaines : adaptation du modèle de langue

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager