Détection des points de vue sur les médias sociaux numériques

Ophélie Fraisier

Résumé

Many domains have an interest in studying the stances expressed online, whether for marketing, cybersecurity or research with the rise of the digital humanities. In this manuscript, we propose two contributions to the field of stance detection, focusing on the difficulty of obtaining quality annotated data on social media. Our first contribution is a large and complex dataset of 22,853 active Twitter profiles during the 2017 French presidential campaign. This is one of the few datasets considering more than two stances and, to our knowledge, the first with a large number of profiles and the first proposing overlapping political communities. This dataset can be used as-is to study campaign mechanisms on Twitter or to evaluate stance detection models or network analysis tools. We then propose two semi-supervised generic stance detection models, using a handful of seed profiles, for which we know the stance, in order to categorize the rest of the profiles by exploiting different inter-profile proximities. Indeed, the current models are generally based on the specificities of certain social platforms, which does not allow the integration of the multitude of available signals. By building proximities from different types of elements available on social media, we can detect profiles close enough to assume that they share a similar stance on a given subject, regardless of the platform. Our first model is a sequential model propagating the stances thanks to a multilayer graph representing the proximities between the profiles. Using datasets from two platforms, we show that by combining several types of proximity, we can correctly label 98% of the profiles. Our second model allows us to observe the evolution of the profiles' stances during an event, with only one profile-seed per point of view. This model confirms that the vast majority of profiles do not change positions on social media, or do not express their change of opinion.

De nombreux domaines ont intérêt à étudier les points de vue exprimés en ligne, que ce soit à des fins de marketing, de cybersécurité ou de recherche avec l'essor des humanités numériques. Nous proposons dans ce manuscrit deux contributions au domaine de la fouille de points de vue, axées sur la difficulté à obtenir des données annotées de qualité sur les médias sociaux. Notre première contribution est un jeu de données volumineux et complexe de 22853 profils Twitter actifs durant la campagne présidentielle française de 2017. C'est l'un des rares jeux de données considérant plus de deux points de vue et, à notre connaissance, le premier avec un grand nombre de profils et le premier proposant des communautés politiques recouvrantes. Ce jeu de données peut être utilisé tel quel pour étudier les mécanismes de campagne sur Twitter ou pour évaluer des modèles de détection de points de vue ou des outils d'analyse de réseaux. Nous proposons ensuite deux modèles génériques semi-supervisés de détection de points de vue, utilisant une poignée de profils-graines, pour lesquels nous connaissons le point de vue, afin de catégoriser le reste des profils en exploitant différentes proximités inter-profils. En effet, les modèles actuels sont généralement fondés sur les spécificités de certaines plateformes sociales, ce qui ne permet pas l'intégration de la multitude de signaux disponibles. En construisant des proximités à partir de différents types d'éléments disponibles sur les médias sociaux, nous pouvons détecter des profils suffisamment proches pour supposer qu'ils partagent une position similaire sur un sujet donné, quelle que soit la plateforme. Notre premier modèle est un modèle ensembliste séquentiel propageant les points de vue grâce à un graphe multicouche représentant les proximités entre les profils. En utilisant des jeux de données provenant de deux plateformes, nous montrons qu'en combinant plusieurs types de proximité, nous pouvons correctement étiqueter 98% des profils. Notre deuxième modèle nous permet d'observer l'évolution des points de vue des profils pendant un événement, avec seulement un profil-graine par point de vue. Ce modèle confirme qu'une grande majorité de profils ne changent pas de position sur les médias sociaux, ou n'expriment pas leur revirement.

Stance detection on digital social media

Détection des points de vue sur les médias sociaux numériques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager