Analyse de signaux sociaux multimodaux : application à la synthèse d’attitudes sociales chez un agent conversationnel animé

Thomas Janssoone

Résumé

During an interaction, non-verbal behavior reflects the emotional state of the speaker, such as attitude or personality. Modulations in social signals tell about someone's affective state like variations in head movements, facial expressions or prosody. Nowadays, machines can use embodied conversational agents to express the same kind of social cues. Thus, these agents can improve the quality of life in our modern societies if they provide natural interactions with users. Indeed, the virtual agent must express different attitudes according to its purpose, such as dominance for a tutor or kindness for a companion. Literature in sociology and psychology underlines the importance of the dynamic of social signals for the expression of different affective states. Thus, this thesis proposes models focused on temporality to express a desired affective phenomenon. They are designed to handle social signals that are automatically extracted from a corpus. The purpose of this analysis is the generation of embodied conversational agents expressing a specific stance. A survey of existing databases lead to the design of a corpus composed of presidential addresses. The high definition videos allow algorithms to automatically evaluate the social signals. After a corrective process of the extracted social signals, an agent clones the human's behavior during the addresses. This provides an evaluation of the perception of attitudes with a human or a virtual agent as a protagonist. The SMART model use sequence mining to find temporal association rules in interaction data. It finds accurate temporal information in the use of social signals and links it with a social attitude. The structure of these rules allows an easy transposition of this information to synthesize the behavior of a virtual agent. Perceptual studies validate this approach. A second model, SSN, designed during an international collaboration, is based on deep learning and domain separation. It allows multi-task learning of several affective phenomena and proposes a method to analyse the dynamics of the signals used. These different contributions underline the importance of temporality for the synthesis of virtual agents to improve the expression of certain affective phenomena. Perspectives give recommendation to integrate this information into multimodal solutions.

Lors d'une interaction, le comportement non-verbal apporte des informations sur l'état affectif de l'intervenant comme son attitude ou sa personnalité par exemple. Cela se traduit par des modulations dans l'utilisation de ses signaux sociaux : les variations dans les mouvements de tête, les expressions faciales ou la prosodie traduisent ces différents phénomènes affectifs. Désormais, l'utilisation d'agents conversationnels animés permet aux machines d'utiliser le même type de signaux sociaux. Ces agents peuvent ainsi améliorer la qualité de vie dans nos sociétés modernes s'ils proposent une interaction naturelle avec des utilisateurs humains. Pour cela, l'agent virtuel doit être capable d'exprimer différentes attitudes selon l'utilisateur, comme de la dominance pour un tuteur ou de la bienveillance pour un compagnon. La littérature en sociologie et psychologie souligne que la dynamique dans l'usage des signaux sociaux contient une information importante pour l'expression de différents états affectifs. Les travaux présentés dans cette thèse proposent donc des modèles centrés sur la temporalité, élaborés à partir de signaux sociaux extraits automatiquement de corpus d'études, afin d'exprimer un phénomène affectif voulu. L'analyse de cette information est toujours effectuée dans un but de synthèse de comportements pour pouvoir l'utiliser lors de la génération d'agents conversationnels animés. Ainsi, une revue des bases de données existantes justifie l'élaboration, dans cette thèse, d'un corpus de travail composé d'allocutions présidentielles. Les vidéos de bonne qualité le composant permettent alors l'utilisation d'algorithmes pour évaluer automatiquement les signaux sociaux. Après un traitement des signaux sociaux extraits, des vidéos sont générées où un agent clone les allocutions. Cela permet d'évaluer et de comparer la perception d'attitude avec l'humain et avec l'agent virtuel comme protagoniste. Le modèle SMART utilise la fouille de données pour trouver des règles d'associations temporelles dans des corpus d'interactions. Il permet de trouver une information temporelle précise dans l'utilisation de signaux sociaux et de la lier avec une attitude sociale. La structure de ses règles permet également de transposer cette information pour synthétiser le comportement d'un agent virtuel. Des études perceptives viennent valider cette approche. Une collaboration internationale a abouti au modèle SSN qui se base sur de l'apprentissage profond et de la séparation de domaine. Il permet un apprentissage multi-tâche de plusieurs phénomènes affectifs simultanément et propose ainsi une méthode d'analyse de la dynamique des signaux employés. Ces différentes contributions confirment l’intérêt de prendre en compte la temporalité dans la synthèse d'agents virtuels pour exprimer correctement certains phénomènes affectifs. Les perspectives proposent des pistes pour l'intégration de cette information dans des solutions multimodales.

Multimodal analysis and recognition of social signals : application to social stance generation in virtual agents

Analyse de signaux sociaux multimodaux : application à la synthèse d’attitudes sociales chez un agent conversationnel animé

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager