Machine Learning of Emotional Expressions In the Wild from Acoustic Signals and Text

Sina Ali Samir

Résumé

Automatic emotion recognition (AER) from text, or audio recordings of natural human-human or human-machine interactions, is a technology that can have an impact in areas as diverse as education, health and entertainment. Although existing AER systems can work well in specific scenarios, they are not yet robust enough to deal with different environments, speakers and microphones (i.e. in the wild). In this thesis, several contributions have been made to advance the research on AER in the wild.State-of-the-art AER systems use data-driven machine learning methods to recognise emotion from numerical representations of acoustic signals or text. One contribution of this thesis is to investigate the fusion of speech representations and their corresponding textual transcriptions for AER on both acted and in-the-wild data. In addition, as human transcriptions are not always available, existing Automatic Speech Recognition (ASR) systems are further explored within the same paradigm. The results show that the use of fused acoustic-textual representations can achieve better AER performance for acted and in-the-wild data than using the representation of each modality alone. The acoustic-textual representations were further fused with speaker representations, resulting in additional improvement in AER performance for acted data.Moreover, as emotion is a subjective concept with no universal definition, it is annotated and used in various ways across different AER systems. To address this issue, this thesis proposes a method for training a model on different datasets with different emotion annotations. The proposed method is composed of one model that is trained across multiple datasets, which computes the generic latent emotion representation, and several specific models, which can map the emotion representation to the set of emotion labels specific to each dataset. The results suggest that the proposed method can produce emotion representations that can relate the same or similar emotion labels across different datasets with different annotation schemes. Finally, by combining the proposed method with joint acoustic-textual representations, it was shown that this method can leverage acted data to improve the performance of AER in the wild.

La reconnaissance automatique des émotions (RAE) à partir de textes ou d'enregistrements audio d'interactions naturelles entre humains ou entre humains et machines est une technologie qui peut avoir un impact dans des domaines aussi divers que l'éducation, la santé et le divertissement. Bien que les systèmes de RAE existants puissent fonctionner correctement dans des scénarios spécifiques, ils ne sont pas encore assez robustes pour être utilisés de manière fiable pour des enregistrements d'environnements, de locuteurs et de microphones différents (c.-à-d. les données naturelles). Dans cette thèse, plusieurs contributions ont été faites pour avancer la recherche sur la RAE pour les données naturelles.Les systèmes de RAE les plus récents utilisent des méthodes d'apprentissage automatique basées sur les données pour prédire les annotations numériques des émotions à partir des représentations numériques des signaux acoustiques ou du texte. L'une des contributions de cette thèse est d'étudier la fusion des représentations vocales et de leurs transcriptions textuelles correspondantes pour la RAE sur des données actées et naturelles. En outre, comme les transcriptions humaines ne sont pas toujours disponibles, les systèmes de reconnaissance automatique de la parole (RAP) existants sont explorés dans le même paradigme. Les résultats montrent que l'utilisation de représentations acoustiques et textuelles fusionnées permet d'obtenir de meilleures performances en matière de reconnaissance automatique d'émotion pour des expressions actées et naturelles, comparé à l'utilisation séparée de chaque modalité. Les représentations acoustiques et textuelles ont également été fusionnées avec les représentations du locuteur, ce qui a permis d'améliorer les performances en RAE pour des expressions actées.En outre, l'émotion étant un concept subjectif sans définition universelle, elle est annotée et utilisée de diverses manières dans les différents systèmes de RAE. Pour résoudre ce problème, cette thèse propose une méthode d'entraînement d'un modèle sur différents ensembles de données avec différentes annotations d'émotions. La méthode proposée est composée d'un modèle partagé entre plusieurs ensembles de données, qui calcule la représentation latente générique de l'émotion, et de plusieurs modèles spécifiques, qui peuvent faire correspondre la représentation de l'émotion à l'ensemble des étiquettes d'émotion spécifiques à chaque ensemble de données. Les résultats suggèrent que la méthode proposée peut produire des représentations d'émotions qui peuvent relier des étiquettes d'émotions identiques ou similaires dans différents ensembles de données avec différents schémas d'annotation. Enfin, en combinant la méthode proposée avec des représentations acoustiques et textuelles conjointes, il a été démontré que cette méthode peut exploiter les expressions émotionnelles actées pour améliorer les performances de la RAE effectuées sur des expressions naturelles.

Machine Learning of Emotional Expressions In the Wild from Acoustic Signals and Text

Apprentissage automatique des expressions émotionnelles à partir de signaux acoustiques et de textes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager