Inference and Applications for Topic Models

Christophe Dupuy 1, 2
1 SIERRA - Statistical Machine Learning and Parsimony
DI-ENS - Département d'informatique de l'École normale supérieure, ENS Paris - École normale supérieure - Paris, CNRS - Centre National de la Recherche Scientifique, Inria de Paris
Résumé : La plupart des systèmes de recommandation actuels se base sur des évaluations sous forme de notes (i.e., chiffre entre 0 et 5) pour conseiller un contenu (film, restaurant...) à un utilisateur. Ce dernier a souvent la possibilité de commenter ce contenu sous forme de texte en plus de l’évaluer. Il est difficile d’extraire de l’information d’un texte brut tandis qu’une simple note contient peu d’information sur le contenu et l’utilisateur. Dans cette thèse, nous tentons de suggérer à l’utilisateur un texte lisible personnalisé pour l’aider à se faire rapidement une opinion à propos d’un contenu. Plus spécifiquement, nous construisons d’abord un modèle thématique prédisant une description de film personnalisée à partir de commentaires textuels. Notre modèle sépare les thèmes qualitatifs (i.e., véhiculant une opinion) des thèmes descriptifs en combinant des commentaires textuels et des notes sous forme de nombres dans un modèle probabiliste joint. Nous évaluons notre modèle sur une base de données IMDB et illustrons ses performances à travers la comparaison de thèmes. Nous étudions ensuite l’inférence de paramètres dans des modèles à variables latentes à grande échelle, incluant la plupart des modèles thématiques. Nous proposons un traitement unifié de l’inférence en ligne pour les modèles à variables latentes à partir de familles exponentielles non-canoniques et faisons explicitement apparaître les liens existants entre plusieurs méthodes fréquentistes et Bayesiennes proposées auparavant. Nous proposons aussi une nouvelle méthode d’inférence pour l’estimation fréquentiste des paramètres qui adapte les méthodes MCMC à l’inférence en ligne des modèles à variables latentes en utilisant un échantillonnage de Gibbs local. Pour le modèle thématique d’allocation de Dirichlet latente, nous fournissons une vaste série d’expériences et de comparaisons avec des travaux existants dans laquelle notre nouvelle approche est plus performante que les méthodes proposées auparavant. Enfin, nous proposons une nouvelle classe de processus ponctuels déterminantaux (PPD) qui peut être manipulée pour l’inférence et l’apprentissage de paramètres en un temps potentiellement sous-linéaire en le nombre d’objets. Cette classe, basée sur une factorisation spécifique de faible rang du noyau marginal, est particulièrement adaptée à une sous-classe de PPD continus et de PPD définis sur un nombre exponentiel d’objets. Nous appliquons cette classe à la modélisation de documents textuels comme échantillons d’un PPD sur les phrases et proposons une formulation du maximum de vraisemblance conditionnel pour modéliser les proportions de thèmes, ce qui est rendu possible sans aucune approximation avec notre classe de PPD. Nous présentons une application à la synthèse de documents avec un PPD sur 2 à la puissance 500 objets, où les résumés sont composés de phrases lisibles.
Type de document :
Thèse
Machine Learning [cs.LG]. INRIA - Sierra Project-Team, Ecole Normale Sup´erieure, Paris, France, 2017. English
Liste complète des métadonnées

Littérature citée [132 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01695034
Contributeur : Christophe Dupuy <>
Soumis le : dimanche 28 janvier 2018 - 19:36:13
Dernière modification le : mardi 30 janvier 2018 - 01:27:27

Fichier

Dupuy_final_thesis.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01695034, version 1

Collections

Citation

Christophe Dupuy. Inference and Applications for Topic Models. Machine Learning [cs.LG]. INRIA - Sierra Project-Team, Ecole Normale Sup´erieure, Paris, France, 2017. English. 〈tel-01695034〉

Partager

Métriques

Consultations de la notice

93

Téléchargements de fichiers

23