COSMO-Onset : a Bayesian, neurally inspired model of speech perception combining bottom-up envelope processing and top-down predictions for syllabic segmentation

Mamady Nabe

Résumé

Neurocognitive speech perceptual processing is classically conceived as a hierarchy of computations – typically including acoustic or multi-sensory feature extraction, pre-lexical categorization, lexical access, prosodic and syntactic integration, up to final comprehension stages. It is increasingly considered that neural communication within and across these various stages is based on synchronization processes and operates thanks to chunking and selection mechanisms exploiting neural oscillatory dynamics at various frequencies.In contrast to classical models of speech perception such as the TRACE or SHORTLIST models, which achieve segmentation solely through the decoding of the spectro-temporal content of the speech input, recent neuroscience research in speech perception advocates for a clear separation between two processing pathways: a decoding pathway and a temporal control pathway. The latter proposal has given rise to several neuro-computational models, which, for segmentation, rely solely on the processing of the acoustic envelope enabling syllabic rhythm tracking from the speech signal. In this sense, they are entirely “bottom-up” segmentation models.However, several studies have shown that reliable speech perception can not be achieved only through bottom-up processes. For instance, clear evidence for the role of top-down temporal predictions has been provided by Aubanel and Schwartz (2020). Their study showed that speech sequences embedded in noise were better processed and understood by listeners when they were presented in their natural, irregular timing than in timing made isochronous, without changing their spectro-temporal content. The strong benefit in intelligibility displayed by natural syllabic timing, both in English and in French, was interpreted by the authors as evidence for the role of top-down temporal predictions for syllabic parsing.The objective of the present thesis is to address the question of the fusion of bottom-up and top-down processes for speech syllabic segmentation. Our contribution is the COSMO-Onset model, a Bayesian hierarchical model of speech perception, involving a speech segmentation module with an original top-down mechanism for syllabic onset prediction, involving lexical temporal knowledge. We use the model to explore the respective roles of bottom-up envelope processing and top-down linguistic predictions and how they can be efficiently combined for syllabic segmentation. On a first set of experiments on simplified, synthetic stimuli, we show that while purely bottom-up onset detection is sufficient for word recognition in nominal conditions, top-down prediction of syllabic onset events allows overcoming challenging adverse conditions, such as when the acoustic envelope is degraded, leading either to spurious or missing onset events in the sensory signal. On a second set of experiments on real speech stimuli from the Aubanel and Schwartz (2020) experiment, we show that the COSMO-Onset model succesfully accounts for the complementary roles of isochrony and naturalness in speech perception in noise.

Le traitement neurocognitif de la perception de la parole est classiquement conçu comme une hiérarchie de calculs - comprenant typiquement l'extraction de caractéristiques acoustiques ou multi-sensorielles, la catégorisation pré-lexicale, l'accès lexical, l'intégration prosodique et syntaxique, jusqu'aux étapes finales de compréhension. On considère de plus en plus que la communication neuronale au sein et entre ces différentes étapes est basée sur des processus de synchronisation et fonctionne grâce à des mécanismes de découpage et de sélection exploitant la dynamique oscillatoire neuronale à diverses fréquences.Contrairement aux modèles classiques de perception de la parole tels que les modèles TRACE ou SHORTLIST, qui réalisent la segmentation uniquement par le décodage du contenu spectro-temporel de l'entrée de la parole, les recherches récentes en neurosciences sur la perception de la parole préconisent une séparation claire entre deux voies de traitement : une voie de décodage et une voie de contrôle temporel. Cette dernière proposition a donné lieu à plusieurs modèles neuro-computationnels qui, pour la segmentation, reposent uniquement sur le traitement de l'enveloppe acoustique permettant le suivi du rythme syllabique à partir du signal de parole. En ce sens, il s'agit de modèles de segmentation entièrement "bottom-up".Cependant, plusieurs études ont montré qu'une perception fiable de la parole ne peut être obtenue uniquement par des processus "bottom-up". Par exemple, des preuves claires du rôle des prédictions temporelles "top-down" ont été fournies par Aubanel et Schwartz (2020). Leur étude a montré que les séquences vocales intégrées dans le bruit étaient mieux traitées et comprises par les auditeurs lorsqu'elles étaient présentées dans leur timing naturel et irrégulier que dans un timing rendu isochrone, sans changer leur contenu spectro-temporel. Le fort bénéfice en intelligibilité affiché par le timing syllabique naturel, tant en anglais qu'en français, a été interprété par les auteurs comme une preuve du rôle des prédictions temporelles descendantes pour l'analyse syllabique.L'objectif de la présente thèse est d'aborder la question de la fusion des processus "bottom-up" et "top-down" pour la segmentation syllabique de la parole. Notre contribution est le modèle COSMO-Onset, un modèle hiérarchique bayésien de la perception de la parole, impliquant un module de segmentation de la parole avec un mécanisme descendant original pour la prédiction de l'apparition syllabique, impliquant des connaissances temporelles lexicales. Nous utilisons le modèle pour explorer les rôles respectifs du traitement "bottom-up" de l'enveloppe et des prédictions linguistiques "top-down", et comment ils peuvent être combinés efficacement pour la segmentation syllabique. Dans une première série d'expériences sur des stimuli synthétiques simplifiés, nous montrons que si la détection purement "bottom-up" du début de la parole est suffisante pour la reconnaissance des mots dans des conditions nominales, la prédiction "top-down" des événements syllabiques du début de la parole permet de surmonter des conditions défavorables difficiles, comme lorsque l'enveloppe acoustique est dégradée, ce qui conduit à des événements de début de parole parasites ou manquants dans le signal sensoriel. Sur une deuxième série d'expériences sur des stimuli de parole réels provenant de l'expérience d'Aubanel et Schwartz (2020), nous montrons que le modèle COSMO-Onset rend compte avec succès des rôles complémentaires de l'isochronie et du naturel dans la perception de la parole dans le bruit.

COSMO-Onset : a Bayesian, neurally inspired model of speech perception combining bottom-up envelope processing and top-down predictions for syllabic segmentation

COSMO-Onset : un modèle Bayésien de perception de la parole, neuro-inspiré, combinant un traitement bottom-up de l'enveloppe du signal et des prédictions temporelles top-down pour la segmentation syllabique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager