From signal representation to representation learning: structured modeling of speech signals

Nicolas Obin

Résumé

This habilitation presents the last ten years of my research on the structured modelling of speech signals. Speech, as an oral language, constitutes the most elaborate communication system observed to date, characterized by a multidimensionality that is at once temporal, parametric and factorial. Its study mobilises numerous scientific fields such as signal and information processing, machine learning, linguistics, psychology, sociology and even anthropology. In addition to its linguistic functions, speech reveals information about an individual, such its biometry (identity), physiology (gender/age, weight/height, health, etc.), psychologic (emotional state, social attitude, personality, etc.), stylistic (adaptation to audience and communication channel), and cultural (geographical origins, socio-professional status). The main problem in modelling speech signals is that the factors of variability are not directly accessible to the observation, but are intricate in the speech signal in a complex and ambiguously manner. The challenge for automatic speech processing is therefore to be able to identify and disentangle the factors of variability in speech signals, in particular through the statistical observation of regularities in databases. My research is mainly focused on the problem of identifying and modelling the variability factors related to the stylistics and expressivity of spoken communication. In particular, I have explored the use of machine learning to analyze, model and generate speech signals. The main challenge of my research is to resolve ambiguities in the speech signal by learning, from a limited amount of data, structured representations that encode the information associated with the various factors of variability under consideration (such as identity, style or expressivity). This research is articulated around three main axes: 1) cognition, i.e., mental representations of the human voice and their similarity; 2) perception, i.e., the human ability to separate and localise sound sources; and finally 3) generation, i.e., how to create or manipulate the identity or expressivity of real or artificial human voices. I will outline the transition from a signal paradigm to a learning paradigm: this phenomenon has manifested itself in the field of speech synthesis through a three-stage evolution, from unit selection speech synthesis, to multi-parametric statistical modelling, and to neural speech generation from compressed and incomplete representations. This paradigm shift can be explained by the limitations of traditional signal models for the analysis and synthesis of speech - particularly for expressive speech; and by the historical duality of signal model and learning model, which separates the signal models and their representation from the learning models. The emergence of deep neural networks has made it possible to overcome this duality by learning representations during the learning process. The issue of data is paramount and conditions all learning problems. At one end of the spectrum, the abundance of data counterbalances the lack of human knowledge specification in learning models; at the other end of the spectrum, some models - for example, physicals - are entirely specified by human knowledge and don't need data for learning. Between these two poles, there is an intermediate position associating human knowledge specification and data-driven machine learning. The main conclusions of my research support the idea of a necessary cooperation between the two poles of human knowledge and machine learning, in particular through the formulation of structured learning models based on human knowledge. In this case, while speech generation has largely solved the problems of intelligibility and naturalness, speech still resists human knowledge and machines, and new challenges are opening up for research. Future directions to be explored include the expressive and aesthetic functions of speech - and, by natural extension, of interpretation -, speech-gesture multimodality in human behaviour, the modelling of verbal and non-verbal communication, situated and in context, and, more broadly, learning models that are economical in both hardware and algorithmic resources, and respectful of personal data. This habilitation will be accompanied by numerous sound illustrations from my research and its creative and artistic applications.

Cette habilitation présente mes dix dernières années de recherche sur la modélisation structurée de signaux de parole. La parole, en tant que langage oral, constitue le système de communication le plus élaboré observé à ce jour, caractérisée par une multidimensionnalité à la fois temporelle, paramétrique, et factorielle. Son étude mobilise de nombreux domaines scientifiques tels que le traitement du signal et de l'information, l’apprentissage machine, la linguistique, la psychologie, la sociologie ou l’anthropologie. Outre ses fonctions linguistiques, la parole révèle un grand nombre d'informations sur un individu, de nature biométrique (identité), physiologique (genre/âge, poids/taille, santé, etc...), psychologique (état émotionnel, attitude sociale, personnalité, etc...), stylistique (adaptation à l'audience et au canal de communication), et culturelle (origines géographiques, statut socioprofessionnel). Le problème principal de la modélisation de signaux de parole est que les facteurs de variabilité ne sont pas accessibles directement à l'observation mais sont intriqués de manière complexe et ambiguë dans le signal de parole. L'enjeu du traitement automatique de la parole consiste donc à pouvoir identifier et démêler les facteurs de variabilité dans les signaux de parole, en particulier par l'observation statistique de régularités sur des bases de données. Ma recherche s'est concentrée sur le problème de l'identification et de la modélisation des facteurs de variabilité liés à la stylistique et à l'expressivité de la communication parlée. J'ai en particulier exploré l'utilisation de l'apprentissage machine pour analyser, modéliser et générer des signaux de parole. L’enjeu principal de ma recherche est de résoudre, par apprentissage à partir d'un nombre limité de données, les ambiguïtés dans le signal de parole, en apprenant de manière structurée les représentations encodant de manière différenciée les informations associés aux facteurs de variabilité considérés (comme l'identité, le style, ou l'expressivité). Cette recherche s'articule autour de trois axes principaux : 1) la cognition, et les représentations mentales de la voix humaine et de leur similarité ; 2) la perception, et la capacité de l'être humain à séparer et localiser des sources sonores ; et enfin 3) la génération, ou comment créer ou manipuler l'identité ou l'expressivité de voix humaines réelles ou artificielles. J’exposerai la transition d'un paradigme signal à un paradigme apprentissage : ce phénomène s’est manifesté dans le domaine de la synthèse de la parole par une évolution en trois temps, depuis la synthèse par sélection d'unités, à la modélisation statistique multi-paramétrique, et à la génération neuronale à partir de représentations compressées et incomplètes. Ce changement de paradigme s'explique par les limitations des modèles de signaux traditionnels pour l'analyse et la synthèse de la parole — en particulier expressive ; et par la limitation historique liée à la dualité du modèle de signal et du modèle d'apprentissage en séparant les modèles de représentation des modèles d’apprentissage. L'apparition des réseaux de neurones profond a permis de dépasser cette dualité en apprenant les représentations au cours de l’apprentissage. La question des données est primordiale et conditionne l'ensemble des problèmes de l'apprentissage. A une extrémité du spectre, l'abondance des données contrebalance le manque de spécification de connaissances humaines dans les modèles d'apprentissage ; à l'autre extrémité du spectre, certains modèles — par exemple, physique — sont entièrement spécifiés par la connaissance humaine et n'ont pas besoin de données pour l'apprentissage. Entre ces deux pôles, il existe un intermédiaire entre la spécification de connaissances humaines et l'apprentissage machine à partir de données. Les conclusions principales de ma recherche soutiennent l’idée d’une nécessaire coopération entre les deux pôles de la connaissance humaine et de l’apprentissage machine, notamment par la formulation de modèles d’apprentissage structurés à partir de connaissances humaines. En l’occurrence, si la génération de la parole a désormais résolu en grande partie les problèmes de l’intelligibilité et de la naturalité, la parole résiste encore à la connaissance humaine et aux machines et de nouveaux défis s’ouvrent pour la recherche. Les problèmes des fonctions expressives et esthétique de la parole — et par prolongement naturel de l’interprétation —, de la multimodalité parole-geste des comportements humains, de la modélisation de la communication verbale et non verbale, située et en contexte, et plus largement des modèles d’apprentissages économes en ressources matérielle comme algorithmique, et respectueux des données personnelles sont autant de nouvelles voies à explorer. Cette habilitation sera accompagnée de nombreuses illustrations sonores issues de ma recherche et de ses applications créatives et artistiques.

From signal representation to representation learning: structured modeling of speech signals

De la représentation du signal à l'apprentissage de représentation : modélisation structurée de signaux de parole

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager