Voice mixology at a cocktail party : Combining behavioural and neural tracking for speech segregation - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Voice mixology at a cocktail party : Combining behavioural and neural tracking for speech segregation

Mixologie vocale lors d'un cocktail : Combinaison du suivi comportemental et neuronal pour la ségrégation de la parole

Résumé

It is not always easy to follow a conversation in a noisy environment. In order to discriminate two speakers, we have to mobilize many perceptual and cognitive processes to maintain attention on a target voice and avoid shifting attention to the background. In this dissertation, the processes underlying speech segregation are explored through behavioural and neurophysiological experiments. In a preliminary phase, the development of an intelligibility task -- the Long-SWoRD test -- is introduced. This protocol allows participants to benefit from cognitive resources, such as linguistic knowledge, to separate two talkers in a realistic listening environment. The similarity between the two speakers, and thus by extension the difficulty of the task, was controlled by manipulating the acoustic parameters of the target and masker voices. In a second phase, the performance of the participants on this task is evaluated through three behavioural and neurophysiological studies (EEG). Behavioural results are consistent with the literature and show that the distance between voices, spatialisation cues, and semantic information influence participants' performance. Neurophysiological results, analysed with temporal response functions (TRF), indicate that the neural representations of the two speakers differ according to the difficulty of listening conditions. In addition, these representations are constructed more quickly when the voices are easily distinguishable. It is often presumed in the literature that participants' attention remains constantly on the same voice. The experimental protocol presented in this work provides the opportunity to retrospectively infer when participants were listening to each voice. Therefore, in a third stage, a combined analysis of this attentional information and EEG signals is presented. Results show that information about attentional focus can be used to improve the neural representation of the attended voice in situations where the voices are similar.
Il n’est pas toujours aisé de suivre une conversation dans un environnement bruyant. Pour parvenir à discriminer deux locuteurs, nous devons mobiliser de nombreux mécanismes perceptifs et cognitifs, ce qui peut parfois entraîner un basculement momentané de notre attention auditive sur les discussions alentour. Dans cette thèse, les processus qui sous-tendent la ségrégation de la parole sont explorés à travers des expériences comportementales et neurophysiologiques. Dans un premier temps, le développement d’une tâche d’intelligibilité – le Long-SWoRD test – est introduit. Ce nouveau protocole permet, tout d’abord, de s’approcher de situations réalistes et, in fine, de bénéficier pour les participants de ressources cognitives, telles que des connaissances linguistiques, pour séparer deux locuteurs. La similarité entre les locuteurs, et donc par extension la difficulté de la tâche, a été contrôlée en manipulant les paramètres des voix. Dans un deuxième temps, les performances des sujets avec cette nouvelle tâche est évaluée à travers trois études comportementales et neurophysiologiques (EEG). Les résultats comportementaux sont cohérents avec la littérature et montrent que la distance entre les voix, les indices de spatialisation, ainsi que les informations sémantiques influencent les performances des participants. Les résultats neurophysiologiques, analysés avec des fonctions de réponse temporelle (TRF), suggèrent que les représentations neuronales des deux locuteurs diffèrent selon la difficulté des conditions d’écoute. Par ailleurs, ces représentations se construisent plus rapidement lorsque les voix sont facilement distinguables. Il est souvent supposé dans la littérature que l’attention des participants reste constamment sur la même voix. Le protocole expérimental présenté dans ce travail permet également d’inférer rétrospectivement à quel moment et quelle voix les participants écoutaient. C’est pourquoi, dans un troisième temps, une analyse combinée de ces informations attentionnelles et des signaux EEG est présentée. Les résultats soulignent que les informations concernant le focus attentionnel peuvent être utilisées avantageusement pour améliorer la représentation neuronale du locuteur sur lequel est porté la concentration dans les situations où les voix sont similaires.
Fichier principal
Vignette du fichier
these.pdf (14.48 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03178835 , version 1 (24-03-2021)

Identifiants

  • HAL Id : tel-03178835 , version 1

Citer

Moïra-Phoebé Huet. Voice mixology at a cocktail party : Combining behavioural and neural tracking for speech segregation. Acoustics [physics.class-ph]. Université de Lyon, 2020. English. ⟨NNT : 2020LYSEI070⟩. ⟨tel-03178835⟩
203 Consultations
140 Téléchargements

Partager

Gmail Facebook X LinkedIn More