Apprentissage auto-supervisé des relations entre sons, gestes articulatoires et unités de la parole pour le contrôle de la production : vers un agent apprenant à parler

Marc-Antoine Georges

Résumé

This thesis aims to study, through modeling and simulation, the learning mechanisms of the relationships between the speech sounds, the underlying articulatory gestures and the phonetic units. The employed methodology is based on deep learning, with an emphasis on self or weakly supervised learning, a paradigm that approaches (to some extent) human learning. To this end, we propose a computational agent capable of learning "to speak" in a self-supervised manner, solely from speech sounds from its environment. First, in order to make the agent capable of producing good quality speech sounds, we develop an articulatory synthesizer, exploiting articulatory and acoustic recordings of a reference speaker and driven by a limited number of parameters describing the main degrees of freedom of the vocal apparatus. Then, we propose two studies aiming to quantify the contribution of articulatory information on the learning of speech representations. In the first study, we simulate the access to articulatory representations during speech perception by evaluating, on a denoising task, the addition of articulatory constraints on the latent space of a variational autoencoder (VAE). In a second study, we investigate the self-supervised discovery of discrete phonetic units using vector quantized variational autoencoders (VQ-VAEs). We show the complementarity of acoustic and articulatory information for structuring the units dictionary. Finally, we propose two versions of the full computational agent, the first referred to as an "imitative agent" and the second as a "communicative agent". These two types of agents must learn to speak in a self-supervised way, by repeating the speech sounds they perceive, by driving the articulatory synthesizer previously developed. To do so, they are provided with two internal models, respectively direct and inverse, which represent the way the brain internalizes the complex relations between the spectral content of the speech signals on the one hand, and the associated articulatory trajectories on the other hand. The imitative agent aims to produce repetitions whose spectral content is as close as possible to that of the perceived sounds. The architecture of the communicative agent adds to the previous one two phonetic unit discovery modules, one based on acoustic information and the other on articulatory information inferred by the agent. These different modules are trained jointly from acoustic stimuli provided by different speakers. Both types of agents appear to be able to learn to speak, but present a certain number of limitations which open up many perspectives for future developments.

Ce travail de thèse vise à étudier, par le biais de la modélisation et de la simulation, les mécanismes d'apprentissage des relations entre les sons de la parole, les gestes articulatoires sous-jacents et les unités phonétiques. La méthodologie employée est basée sur l'apprentissage automatique profond (deep learning), avec un accent sur l'apprentissage auto ou faiblement supervisé (self-supervised learning), paradigme qui s'approche (dans une certaine mesure) de l'apprentissage humain. Pour ce faire, nous proposons un agent computationnel capable d'apprendre « à parler » de façon auto-supervisée, uniquement à partir de sons de parole issus de son environnement. D'abord, afin de rendre l'agent capable de produire des sons de parole de bonne qualité, nous élaborons un synthétiseur articulatoire, exploitant des enregistrements articulatoires et acoustiques d'un locuteur de référence et piloté par un nombre restreint de paramètres décrivant les degrés de liberté principaux de l'appareil vocal. Ensuite, nous proposons deux études visant à quantifier l'apport d'informations articulatoires sur l'apprentissage de représentations de la parole. Dans la première étude, nous simulons l'accès à des représentations articulatoires lors de la perception de la parole en évaluant, sur une tâche de débruitage, l'ajout de contraintes articulatoires sur l'espace latent d'un auto-encodeur variationnel (VAE). Dans une seconde étude, nous nous intéressons à la découverte auto-supervisée d'unités phonétiques discrètes, grâce à des auto-encodeurs variationnels quantifiés vectoriels (VQ-VAE). Nous montrons une complémentarité des informations acoustiques et articulatoires pour la structuration du dictionnaire d'unités. Enfin, nous proposons deux versions de l'agent computationnel complet, la première qualifiée d'« agent à but imitatif » et la seconde d'« agent à but communicatif ». Ces deux types d’agents doivent apprendre à parler de façon auto-supervisée, en répétant les sons de parole qu'ils perçoivent, au moyen du synthétiseur articulatoire développé préalablement. Pour ce faire, ils sont dotés de deux modèles internes respectivement direct et inverse qui représentent la façon dont le cerveau internalise les relations complexes entre le contenu spectral des signaux de parole d'une part, et les trajectoires articulatoires associées d'autre part. L’agent imitatif cherche à produire des répétitions dont le contenu spectral est le plus proche possible de celui des sons perçus. L'architecture de l'agent à but communicatif ajoute à la précédente deux modules de découverte d'unités phonétiques, l'un basé sur les informations acoustiques et l'autre sur les informations articulatoires inférées par l'agent. Ces différents modules sont entraînés conjointement à partir de stimuli acoustiques fournis par différents locuteurs. Ces deux types d'agents apparaissent effectivement capables d'apprendre à parler, mais présentent un certain nombre de limitations qui ouvrent sur de nombreuses perspectives pour des développements futurs.

Self-supervised learning of the relationships between sounds, gestures and units for the control of speech production : towards an agent learning to speak

Apprentissage auto-supervisé des relations entre sons, gestes articulatoires et unités de la parole pour le contrôle de la production : vers un agent apprenant à parler

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager