Decoding speech from brain activity using linear methods - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Decoding speech from brain activity using linear methods

Décodage de la parole à partir de l'activité cérébrale à l'aide de méthodes linéaires

Résumé

Invasive brain-computer interfaces controlled by paralyzed people could restorenatural speech production by providing real-time speech synthesis from corticalactivity. This thesis aims at decoding existing invasive recordings of speech activityin an offline setting, using real-time compatible methods that could later be used ina natural speech brain-computer interface.A focus was made on decoding speech from cortical activity using linear methods,in particular partial least squares regression, which has been successfully used inmotor brain-computer interfaces before but not for speech decoding yet. Two mainapproaches were compared: 1. direct decoding of F0 and mel cepstral coefficientsof speech, and 2. indirect decoding of speech through an articulatory representation.In order to decode articulatory trajectories from cortical activity, those were firstinferred from the patient’s audio recordings using dynamic time warping. Severalfeedforward and recurrent neural networks were trained on a separate electromag-netic articulography dataset to perform articulatory-to-acoustic synthesis, and wereevaluated using objective and perceptive criterions. The best model was finetunedto predict mel cepstral coefficients of speech from decoded articulatory trajectories.Speech was synthesized from decoded F0 and mel cepstral coefficients using anMLSA filter, for both decoding paradigms.Both direct and indirect decoding of acoustic features of speech achieved signifi-cant speech decoding with similar performances, although not intelligible. Partialleast squares regression was found to perform a more efficient feature reductionthan PCA-based linear regressions, for a similar performance. Prior to decoding,noisy channels and spectral features of cortical activity that do not contain speechinformation were successfully removed using an automatic feature selection. It wasfound that decoding from spectrograms of cortical activity was best when using allselected frequencies up to 200Hz and concatenating the last 200 ms of brain activity.Decoding of articulatory trajectories was significantly better from frontal electrodesthan from temporal electrodes, and the opposite was true for acoustic features ofspeech. However, in both cases decoding was significantly better when includingall electrodes. Finally, our experiments suggest that decoding could be improved bysplitting a speech decoder into a voicing classifier and a regression-based decoderonly active on voiced segments.vIn this thesis, we set up an entire real-time-compatible decoding pipeline based onlinear methods. It should now be implemented for further evaluation in a close-loopexperiment. Meanwhile, although decoding was much better than chance, linearmethods are likely not good enough yet for a brain-computer interface generatingnatural speech. Further work should focus on developing real-time compatibledecoders based on other methods like deep neural networks.
Le contrôle d’une interface cerveau-ordinateur invasive par une personne paralyséepourrait restaurer une production naturelle de la parole en permettant une synthèsevocale en temps réel à partir de l’activité corticale. Cette thèse vise à décoder demanière hors ligne des enregistrements invasifs existants de l’activité corticale de laparole, en utilisant des méthodes compatibles temps réel qui pourraient ensuite êtreutilisées dans une interface cerveau-ordinateur générant de la parole naturelle.L’accent a été mis sur l’utilisation de méthodes linéaires pour le décodage de la paroleà partir de l’activité corticale. En particulier la régression des moindres carrés partiels,qui a déjà été utilisée avec succès dans des interfaces cerveau-ordinateur moteur,mais pas encore pour le décodage de la parole. Deux principales approches ont étécomparées : 1. le décodage direct de F0 et des coefficients mel cepstraux de la parole,et 2. le décodage indirect de la parole via une représentation articulatoire. Afinde décoder les trajectoires articulatoires à partir de l’activité corticale, celles-ci ontd’abord été déduites des enregistrements audio du patient à l’aide d’un algorithmede déformation temporelle dynamique. Différents réseaux de neurones récurrentsou à propagation avant ont été entraînés à effectuer une synthèse articulatoire-acoustique sur des données d’articulographie électromagnétique, et ont été évaluésà l’aide de critères objectifs et perceptifs. Le meilleur modèle a été ajusté par fine-tuning à prédire les coefficients mel cepstraux de la parole à partir des trajectoiresarticulatoires décodées. La parole a été synthétisée par un filtre MLSA à partir de F0et des coefficients mel cepstraux décodés.Le décodage direct et indirect des caractéristiques acoustiques de la parole ont atteintdes performances similaires, toutes deux significativement meilleures que la chancebien que non intelligibles. La régression des moindres carrés partiels s’est avéréeeffectuer une réduction des caractéristiques neurales plus efficace que les régressionslinéaires basées sur l’ACP, pour une performance similaire. Avant d’effectuer ledécodage, les canaux bruyants et les caractéristiques spectrales de l’activité corticalequi ne contiennent pas d’information sur la parole ont été supprimés avec succèspar une sélection automatique. Nous avons constaté que le décodage à partir despectrogrammes de l’activité corticale était optimal lors de l’utilisation de toutesles fréquences sélectionnées, jusqu’à 200Hz, et en concaténant les 200 dernièresmillisecondes d’activité cérébrale. Les électrodes frontales ont permis de mieuxdécoder les trajectoires articulatoires que les électrodes temporales, tandis quel’inverse était vrai pour les caractéristiques acoustiques. Dans les deux cas cependant,le décodage a été significativement meilleur en utilisant toutes les électrodes à la fois.Enfin, nos expériences suggèrent que le décodage pourrait être amélioré en divisantle décodeur en un modèle classifiant le voisement d’un côté et une régression activeuniquement sur les segments vocaux de l’autre.Dans cette thèse, nous avons mis en place un pipeline de décodage complet basésur des méthodes linéaires et compatibles temps réel. Il devrait maintenant êtreimplémenté pour une évaluation plus approfondie dans une expérience en bouclefermée. En parallèle, bien que le décodage soit bien meilleur que la chance, lesméthodes linéaires ne sont probablement pas encore assez performantes pour êtreutilisées dans une interface cerveau-ordinateur produisant de la parole naturelle. Deprochains travaux devraient se concentrer sur le développement d’autres décodeurscompatibles temps réel, basés notamment sur des réseaux de neurones.
Fichier principal
Vignette du fichier
GODAIS_2022_archivage.pdf (30.61 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03852448 , version 1 (15-11-2022)

Identifiants

  • HAL Id : tel-03852448 , version 1

Citer

Gaël Le Godais. Decoding speech from brain activity using linear methods. Signal and Image Processing. Université Grenoble Alpes [2020-..], 2022. English. ⟨NNT : 2022GRALT056⟩. ⟨tel-03852448⟩
232 Consultations
44 Téléchargements

Partager

Gmail Facebook X LinkedIn More