Modèles thématiques pour la découverte non supervisée de points de vue sur le Web

Résumé : Les plateformes en ligne telles que les blogs et les réseaux sociaux permettent aux internautes de s'exprimer sur des sujets d'une grande variété (produits commerciaux, politique, services, etc.). Cet important volume de données d'opinions peut être exploré et exploité grâce à des techniques de fouille de texte connues sous le nom de fouille d'opinions ou analyse de sentiments. Contrairement à la majorité des travaux actuels en fouille d'opinions, qui se focalisent sur les opinions simplement positives ou négatives (ou un intermédiaire entre ces deux extrêmes), nous nous intéressons dans cette thèse aux points de vue. La fouille de point de vue généralise l'opinion au delà de son acception usuelle liée à la polarité (positive ou négative) et permet l'étude d'opinions exprimées plus subtilement, telles que les opinions politiques. Nous proposons dans cette thèse des approches non supervisées – ne nécessitant aucune annotation préalable – basées sur des modèles thématiques probabilistes afin de découvrir simultanément les thèmes et les points de vue exprimés dans des corpus de textes d'opinion. Dans notre première contribution, nous avons exploré l'idée de différencier mots d'opinions (spécifiques à la fois à un point de vue et à un thème) et mots thématiques (dépendants du thème mais neutres vis-à-vis des différents points de vue) en nous basant sur les parties de discours, inspirée par des pratiques similaires dans la littérature de fouille d'opinions classique – restreinte aux opinions positives et négatives. Notre seconde contribution se focalise quant à elle sur les points de vue exprimés sur les réseaux sociaux. Notre objectif est ici d'analyser dans quelle mesure l'utilisation des interactions entre utilisateurs, en outre de leur contenu textuel généré, est bénéfique à l'identification de leurs points de vue. Nos différentes contributions ont été évaluées et comparées à l'état de l'art sur des collections de documents réels.
Type de document :
Thèse
Informatique et langage [cs.CL]. Université Toulouse 3 – Paul Sabatier, 2017. Français
Liste complète des métadonnées

Littérature citée [202 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01655278
Contributeur : Thibaut Thonet <>
Soumis le : lundi 4 décembre 2017 - 17:24:02
Dernière modification le : mercredi 23 mai 2018 - 17:58:07

Fichier

These_finale_Thonet.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01655278, version 1

Collections

Citation

Thibaut Thonet. Modèles thématiques pour la découverte non supervisée de points de vue sur le Web. Informatique et langage [cs.CL]. Université Toulouse 3 – Paul Sabatier, 2017. Français. 〈tel-01655278〉

Partager

Métriques

Consultations de la notice

307

Téléchargements de fichiers

413