Adapting Deep Neural Information Retrieval Models to Long Documents and New Domains

Minghan Li

Résumé

In the era of big data, information retrieval (IR) plays a pivotal role in our daily lives. Deep neural networks, specifically Transformer-based models, have shown remarkable enhancements in neural IR. However, their effectiveness is constrained by limitations. This thesis aims to advance neural IR by addressing three key topics: long document retrieval for Transformer-based models, domain adaptation for dense retrieval and conversational search, and a novel differentiable approximation of listwise loss functions.The first topic addresses the challenge of retrieving relevant information from long documents. The self-attention mechanism has the quadratic complexity, making Transformer-based models difficult to process long documents. This thesis proposes a framework that pre-ranks passages within a long document based on the query, and then combines or processes the filtered top-ranking passages to obtain the document relevance score. Experiments on IR collections with both interaction and late interaction based models demonstrate state-of-the-art level effectiveness.The second topic explores domain adaptation for dense retrieval and conversational search. Dense retrieval models' generalization ability on target domains is limited. This thesis proposes a self-supervision approach that generates pseudo-relevance labels for queries and documents on the target domain, using an interaction-based model T5-3B from a BM25 list. Different negative mining strategies are investigated to improve the proposed approach. Conversational search is challenging as the system needs to understand ambiguous user intent in each query turn, and obtaining labels for target datasets is difficult. Existing approaches for training conversational dense retrieval models can be further improved to tackle the domain shift issue. This thesis uses a T5-Large model to generate rewritten queries for target datasets and applies a similar approach as in dense retrieval to generate pseudo-relevance data. Experiment results show that the pseudo-relevance labeling approach improves the dense retrieval and conversational dense retrieval models on the target domain when fine-tuned on the generated data.The third topic focuses on the use of listwise loss functions for learning to rank in IR. Popular IR metrics are not differentiable, limiting the potential of training better IR models. This thesis proposes a softmax-based approximation of the rank indicator function, a key component in the design of IR metrics. Experiments on learning to rank and text-based IR tasks demonstrate the good quality of the proposed approximations of IR metrics.Overall, this thesis contributes novel approaches to address important challenges in IR. The proposed approaches demonstrate improvements and provide valuable insights into the development of effective IR systems.

À l'ère du big data, la recherche d'information (RI) joue un rôle central dans notre vie quotidienne. Les réseaux neuronaux profonds, plus précisément les modèles basés sur les Transformers, ont montré des améliorations remarquables dans la RI neuronale. Cependant, leur efficacité est limitée par certaines contraintes. Cette thèse vise à faire avancer la RI neuronale en abordant trois sujets clés : la recherche de documents longs pour les modèles basés sur les Transformers, l'adaptation de domaine pour la recherche dense et conversationnelle, ainsi qu'une nouvelle approximation différentiable des fonctions de perte listwise.Le premier sujet aborde le défi de la récupération d'informations pertinentes à partir de documents longs. Le mécanisme d'auto-attention a une complexité quadratique, ce qui rend difficile le traitement de documents longs par les modèles basés sur les Transformers. Cette thèse propose un cadre qui pré-classe les passages d'un document long en fonction de la requête, puis combine ou traite les passages les mieux classés pour obtenir le score de pertinence du document. Des expériences sur des collections de RI avec des modèles basés sur l'interaction et des modèles basés sur l'interaction tardive démontrent l'efficacité de l'état de l'art.Le deuxième sujet explore l'adaptation de domaine pour la recherche dense et la recherche conversationnelle. La capacité de généralisation des modèles de recherche dense sur les domaines cibles est limitée. Cette thèse propose une approche d'auto-supervision qui génère des étiquettes de pseudo-pertinence pour les requêtes et les documents du domaine cible, en utilisant un modèle T5-3B à partir d'une liste BM25. Différentes stratégies d'extraction de données négatives sont étudiées pour améliorer cette approche. La recherche conversationnelle est un défi car le système doit comprendre l'intention ambiguë de l'utilisateur à chaque tour de requête, et l'obtention d'étiquettes pour les ensembles de données cibles est difficile. Les approches existantes pour l'entraînement des modèles de recherche dense conversationnelle peuvent être améliorées pour résoudre le problème du décalage de domaine. Cette thèse utilise un modèle T5-Large pour générer des requêtes réécrites pour les ensembles de données cibles et applique une approche similaire à celle de la recherche dense pour générer des données de pseudo-pertinence. Les résultats des expériences montrent que l'approche d'étiquetage de pseudo-pertinence améliore les modèles de recherche dense et conversationnelle sur le domaine cible lorsqu'ils sont entraînés sur les données générées.Le troisième sujet se concentre sur l'utilisation de fonctions de perte listwise pour l'apprentissage du classement en RI. Les métriques populaires en RI ne sont pas différentiables, ce qui limite le potentiel d'entraînement de modèles de RI plus performants. Cette thèse propose une approximation basée sur le softmax de la fonction indicatrice de rang, un composant clé dans la conception des métriques de RI. Les expériences sur l'apprentissage du classement et les tâches basées sur le texte en RI démontrent la bonne qualité des approximations proposées des métriques de RI.Dans l'ensemble, cette thèse propose des approches novatrices pour relever les défis importants de la RI. Les approches proposées montrent des améliorations et fournissent des perspectives précieuses pour le développement de systèmes de RI efficaces.

Adapting Deep Neural Information Retrieval Models to Long Documents and New Domains

Adapter des modèles de recherche d'information basés sur les réseaux neuronauxprofonds pour les documents longs et les nouveaux domaines

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager