Multimodal emotion recognition from physiological signals and facial expressions

Yujin Wu

Résumé

Emotion recognition is a subfield of affective computing and a critical research direction for the development of human-centered artificial intelligence, which targets the identification and interpretation of human emotions through machines in an objective and automatic manner. Emotions can be expressed and conveyed through a variety of channels which can be broadly categorized into externally observable behavioural modalities such as facial expressions, body postures, speech and intrinsic physiological modalities such as brain activities, skin conductance, heart rate, etc. Therefore, emotion recognition methods have been developed accordingly based on these modalities.Recent advances in sensor technology and human-computer interaction systems offer the possibility of migrating the deployment of emotion recognition systems from the laboratory to the real world. However, most of the existing research is still directed towards the former. In this context, we are interested in designing emotion recognition algorithms for real-life scenarios from physiological, behavioural and multimodal perspectives and exploring the implications and impact of their interventions on practical applications.In this thesis, from the physiological perspective, we propose a self-supervised multimodal representation learning method for wearable emotion recognition based on peripheral physiological signals to cope with the overfitting problem posed by limited labelled data and the bias of inaccurate real-world labelling. From the behavioural perspective, we suggest a non-Euclidean metric learning method for 2D facial landmark-based expression recognition to tackle problems such as pose variation and intra-class variation. From a multimodal perspective, we present a deep geometric framework based on a symmetric positive definite matrix representation for multimodal stress and pain detection to address the fusion issue of physiological and behavioural modalities. Additionally, we also realize the deployment of emotion recognition in a real-life scenario, i.e. medical simulation training, where the previously proposed algorithm is integrated into a graphical user interface to test its feasibility and validity on the collected multimodal data, while exploring its pedagogical effects.

La reconnaissance des émotions est un sous-domaine de l'informatique affective et une direction de recherche critique pour le développement de l'intelligence artificielle centrée sur l'homme, qui vise l'identification et l'interprétation des émotions humaines par des machines de manière objective et automatique.Les émotions peuvent être exprimées et transmises par divers canaux qui peuvent être classés en deux grandes catégories : les modalités comportementales observables de l'extérieur, telles que les expressions faciales, les postures corporelles et la parole, et les modalités physiologiques intrinsèques, telles que les activités cérébrales, la conductivité de la peau, le rythme cardiaque, etc. Des méthodes de reconnaissance des émotions ont donc été développées sur la base de ces modalités.Les récentes avancées en matière de technologie des capteurs et de systèmes d'interaction homme-machine offrent la possibilité de faire passer le déploiement des systèmes de reconnaissance des émotions du laboratoire au monde réel. Cependant, la plupart des recherches existantes sont encore orientées vers le premier.Dans ce contexte, nous nous intéressons à la conception d'algorithmes de reconnaissance des émotions pour des scénarios de la vie réelle d'un point de vue physiologique, comportemental et multimodal et à l'exploration des implications et de l'impact de leurs interventions sur des applications pratiques.Dans cette thèse, du point de vue physiologique, nous proposons une méthode d'apprentissage de représentation multimodale auto-supervisée pour la reconnaissance d'émotion portable basée sur des signaux physiologiques périphériques pour faire face au problème du surapprentissage posé par des données étiquetées limitées et le biais d'étiquetage inexact dans le monde réel. Du point de vue comportemental, nous suggérons une méthode d'apprentissage métrique non euclidienne pour la reconnaissance d'expressions basées sur des points de repère faciaux en 2D afin de résoudre des problèmes tels que la variation de pose et la variation intra-classe.D'un point de vue multimodal, nous présentons un cadre géométrique profond basé sur une représentation matricielle symétrique définie positive pour la détection multimodale du stress et de la douleur afin de résoudre le problème de la fusion des modalités physiologiques et comportementales. En outre, nous réalisons le déploiement de la reconnaissance des émotions dans un scénario réel, à savoir la formation par simulation médicale, où l'algorithme proposé précédemment est intégré dans une interface utilisateur graphique pour tester sa faisabilité et sa validité sur les données multimodales collectées, tout en explorant ses effets pédagogiques.

Multimodal emotion recognition from physiological signals and facial expressions

Reconnaissance multimodale des émotions à partir de signaux physiologiques et d'expressions faciales

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager