Machine Learning Approaches to Text Representation using Unlabeled Data - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2006

Machine Learning Approaches to Text Representation using Unlabeled Data

Approches d'apprentissage automatiques pour le représentation de textes à travers l'utilisation de données non-étiquetées

Résumé

With the rapid expansion in the use of computers for producing digitalized textual documents, the need of automatic systems for organizing and retrieving the information contained in large databases has become essential. In general, information retrieval systems rely on a formal description or representation of documents enabling their automatic processing. In the most common representation, the so-called bag-of-words, documents are represented by the words composing them and two documents (or a user query and a document) are considered similar if they have a high number of co-occurring words. In this representation, documents with different, but semantically related terms will be considered as unrelated, and documents using the same terms but in different contexts will be seen as similar. It arises quite naturally that information retrieval systems can use the huge amount of existing textual documents in order to “learn”, as humans do, the different uses of words depending on the context. This information can be used to enrich documents’ representation. In this thesis dissertation we develop several original machine learning approaches which attempt at fulfilling this aim. As a first approach to document representation we propose a probabilistic model in which documents are assumed to be issued from a mixture of distributions over themes, modeled by a hidden variable conditioning a multinomial distribution over words. Simultaneously, words are assumed to be drawn from a mixture of distributions over topics, modeled by a second hidden variable dependent on the themes. As a second approach, we proposed a neural network which is trained to give a score for the appropriateness of a word in a given context. Finally we present, a multi-task learning approach, which is trained jointly to solve an information retrieval task, while learning on unlabeled data to improve its representation of documents
Avec l’essor de l’usage des ordinateurs pour la création de documents textuels digitalisés, le besoin de systèmes automatiques pour la recherche et l’organisation de l’information contenue dans de grandes bases de données est devenu central. En général, les systèmes de recherche d’information s’appuient sur une description formelle (ou représentation) des documents permettant leur traitement automatique. Dans la plus commune des représentations, appelée sac-de-mots, les documents sont représentés par l’ensemble des mots les constituant. Deux documents (ou bien un document et une requête) sont considérés comme similaires s’ils ont un grand nombre de mots en commun. Il est raisonnable de penser que les systèmes de recherche d’information devraient pouvoir utiliser les grandes quantités de données textuelles disponibles pour “apprendre”, à la façon des humains, les différents emplois d’un mot en fonction de son contexte. Cette information devrait pouvoir être utilisée pour enrichir la représentation des documents. Dans cette thèse, nous développons plusieurs approches originales d’apprentissage automatique qui tentent d’atteindre ce but. Comme première approche pour la représentation de documents nous proposons un modelé probabiliste qui suppose que les documents sont tirés d’un mélange de distributions sur des “thèmes”, représentés par une variable cachée qui conditionne une distribution multinomiale sur les mots. Simultanément, ce modèle suppose que les mots sont tirés d’une distribution sur les “sujets”, représentés quant à eux par une seconde variable cachée dépendante des thèmes. Comme deuxième approche, un réseau de neurones est proposé. Il est entraîné à donner un score reflétant le fait qu’un mot soit plus ou moins approprié étant donné un contexte. Finalement, nous présentons une approche multitâche entraînée de façon à résoudre conjointement une tâche de recherche d’information et tout en enrichissant la représentation des documents par l’utilisation des données non-étiquetées.
Fichier principal
Vignette du fichier
thesis3676.pdf (1.32 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-02075872 , version 1 (22-03-2019)

Identifiants

  • HAL Id : tel-02075872 , version 1

Citer

Mikaela Keller. Machine Learning Approaches to Text Representation using Unlabeled Data. Computer Science [cs]. EPFL, 2006. English. ⟨NNT : ⟩. ⟨tel-02075872⟩
165 Consultations
72 Téléchargements

Partager

Gmail Facebook X LinkedIn More