Analyse et détection des émotions verbales dans les interactions orales - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2007

Analysis and detection of emotions in real-life spontaneous speech

Analyse et détection des émotions verbales dans les interactions orales

Résumé

The thesis addresses the representation and automatic detection of emotions in natural speech. Most experiments were conducted on data recorded in a 20-hour real-life human-human call center. In a first part, we present and validate an annotation scheme allowing the annotation of emotion mixtures. Several annotations are combined in an "emotion vector" and the presence of many blended emotions is thus revealed. Those emotion mixtures are further studied with two perceptive tests. In the second part, more than a hundred paralinguistic cues are extracted per emotion segments and the non complex segments are used to train classifiers, mostly Support Vector Machine. Discrimination experiments are done with 2 to 5 emotion classes. Some take into consideration the speaker gender and role, i.e. agent vs. client. The relative importance of different paralinguistic cues as well as the combination of linguistic and paralinguistic cues are also studied. In addition, during a collaboration between different sites involved in the HUMAINE network of excellence, we have been able to compare and combine our expertise on a common corpus. The results obtained by LIMSI were at the state of the art. Finally, we study the performances of classifiers trained and tested on different corpus. In the case of acted speech and natural speech, models trained on one type of data do not necessarily work on the other type of data.
La thèse traite de l'analyse et la classification des états émotionnels perçus dans la parole lors de conversations naturelles. La majorité des expériences ont été effectuées sur des données enregistrées dans un centre d'appel médical contenant 20h de conversation homme-homme. La première partie du travail a consisté à proposer un protocole d'annotation adapté à la complexité des données réelles avec en particulier la possibilité d'annoter deux états émotionnels par segment. Des réflexions ont été conduites sur la manière de valider ces annotations et un vecteur " émotion " a été déduit de chaque annotation. Ces vecteurs ont révélé la présence d'états émotionnels mélangés qui ont été analysés et validés par des tests perceptifs. La deuxième partie porte sur la mise en oeuvre d'algorithmes de classification pour détecter des états émotionnels après l'extraction de plus d'une centaine d'indices paralinguistiques par segment. Les segments non complexes du corpus ont été utilisés pour entraîner des classifieurs, principalement des Support Vector Machine (SVM), afin de discriminer 2 à 5 classes " Emotion ". Les performances ont également été comparées selon le type d'indices extraits et en prenant en considération le sexe ou le rôle (agent/client) du locuteur. Une collaboration a été effectuée avec d'autres sites du réseau d'excellence HUMAINE afin de comparer les indices et méthodes sur des données en allemand. Les performances du LIMSI étaient au niveau de l'état de l'art. Enfin, une comparaison entre les états émotionnels présents dans des données actées et naturelles a montré que les modèles entraînés sur un type de données ne fonctionnaient pas forcément sur l'autre.
Fichier principal
Vignette du fichier
these-vidrascu2007.pdf (3.12 Mo) Télécharger le fichier

Dates et versions

tel-00624085 , version 1 (15-09-2011)

Identifiants

  • HAL Id : tel-00624085 , version 1

Citer

Laurence Vidrascu. Analyse et détection des émotions verbales dans les interactions orales. Informatique [cs]. Université Paris Sud - Paris XI, 2007. Français. ⟨NNT : ⟩. ⟨tel-00624085⟩
597 Consultations
8884 Téléchargements

Partager

Gmail Facebook X LinkedIn More