Traitement automatique et analyse de la variation dans la parole : des mesures phonétiques sur grands corpus aux réseaux de neurones profonds

Cédric Gendrot

Résumé

This document goes over my teaching, administrative, and research activities since my recruitment as an associate professor at the University Sorbonne Nouvelle in 2006. This summary focuses on the last point, following the common thread of my work: the use of large corpora of unprepared speech for automatic phonetic analysis in order to better understand the variation present in speech. In the first section, after providing formants reference values for French, I showed acoustic reduction phenomena for all vowels as a function of their phonetic duration, consonantal context and speech style. This reduction is also observed in several languages with different phonological constraints. It has been shown in the course of this work that measurements performed automatically on automatically aligned corpora remain consistent provided that certain methodological precautions are respected. In the second section, I highlighted the importance of prosody on the acoustic realization of vowels. Word position, accentual phrase, and intonational phrase are three recurring factors of variation found in French, German, and Spanish. The comparison between three languages with different accentual systems allowed me to separate the accentual structure and the prosodic structure, which can be enhanced respectively either by spectral information (formants) in a preponderant way, or by prosodic parameters (f0 and duration). In the third section, I dealt with linguistic phenomena whose variation raises phonological issues. I was able to show in the context of schwa analysis that taking into account multiple factors was possible and useful in large corpora. The identification of different variables for the reduction of schwa vs. its complete elision allowed us to conclude that there are different mechanisms, one phonetic and the other phonological. Analysis of standard French /R/ from a combination of articulatory and large speech corpora allowed us to consider the unvoiced form of /R/ as the hyper-articulated realization of the voiced form, and showed that /R/ variation is greatly influenced by prosodic position and speech style, in addition to its consonantal context. Finally, in a study postulating that /e/ and /ɛ/ have entered a process of merging, I showed that large corpora with multiple speakers are perfect tools for spotting global trends in a language despite the maintenance of inter-speaker variation. These studies were also an opportunity to perceptually test the measured variations and thus validate their relevance in the context of spoken communication. Several fundamental methodological aspects and innovative methods are presented. In the fourth and last section, a discussion is proposed: the use of large corpora is compared to that of small corpora of read speech. A reappraisal of the methods, both for data and for analysis, is also presented and solutions are proposed. My recent work has led me to the search for speaker-specific strategies and phonetic characterization. For less than ten years, deep neural networks have revolutionized the field of classification, and it seemed essential to try and use them for phonetic analysis. By using convolutional neural networks (CNNs) through spectrograms, the goal was twofold: (1) to know to what extent the spectrogram can characterize the speaker beyond a classical phonetic analysis and (2) by means of visualization techniques, to localize the areas of the spectrogram used by the CNNs. Encouraging results presented in the final discussion provide a glimpse of my future research projects.

Dans ce document d'Habilitation à Diriger des Recherches sont présentées mes activités pédagogiques et académiques, ainsi que mes activités de recherche depuis mon recrutement en tant que Maitre de Conférences à l'Université Sorbonne Nouvelle en 2006. Ce résumé se concentre sur le dernier point en suivant le fil rouge de mes travaux : l'utilisation de grands corpus de parole non préparée pour des analyses phonétiques automatiques afin de mieux comprendre la variation présente dans la parole. Dans la première section, après avoir présenté des valeurs formantiques de référence pour le français, j’ai montré des phénomènes de réduction acoustique pour toutes les voyelles en fonction de leur durée phonétique, du contexte consonantique et du style de parole. Cette réduction s’observe également dans plusieurs langues avec des contraintes phonologiques différentes. Il a été démontré au cours de ces travaux que des mesures effectuées de façon automatique sur des corpus alignés automatiquement restent cohérentes à la condition de respecter certaines précautions méthodologiques. Dans la deuxième section, les travaux présentés ont mis en évidence l’importance de la prosodie sur la réalisation acoustique des voyelles. La position dans le mot, le syntagme accentuel et le syntagme intonatif sont trois facteurs de variation récurrents que l’on observe en français, en allemand et en espagnol. La comparaison entre trois langues aux systèmes accentuels différents m’a permis de séparer la structure accentuelle et la structure prosodique, pouvant être mise en avant respectivement soit par des informations spectrales (formants) de façon prépondérante, soit par des paramètres prosodiques (f0 et durée). Dans la troisième section, je me suis appliqué à traiter des phénomènes linguistiques dont la variation soulève des questions sur la séparation entre phonétique et phonologie. J’ai pu montrer dans le cadre de l’analyse du schwa que la prise en compte de multiples facteurs était possible et souhaitable dans des grands corpus. La mise en évidence de variables différentes pour la réduction du schwa vs. son élision complète a permis de conclure à des mécanismes différents, l’un phonétique et l’autre phonologique. L’analyse du /R/ français standard d’après une combinaison de corpus de données articulatoires et de grands corpus de parole a permis de considérer la forme non voisée du /R/ comme la réalisation hyper-articulée de la forme voisée, et a montré que la variation du /R/ est grandement influencée par la position prosodique et par le style de parole, en plus du contexte consonantique. Pour finir, dans une étude postulant que /e/ et /ɛ/ sont entrés dans un processus de fusion, j’ai montré que les grands corpus avec de multiples locuteurs sont des outils parfaits pour repérer des tendances globales dans une langue malgré le maintien de variations inter-locuteurs. Ces études ont également été l’occasion de tester perceptivement les variations mesurées et ainsi valider leur pertinence dans le cadre de la communication parlée. Plusieurs aspects méthodologiques fondamentaux ainsi des méthodes innovantes sont présentés. Dans la quatrième et dernière section, une discussion est proposée : l’utilisation des grands corpus y est comparée à celle des petits corpus de parole lue. Une remise en question des méthodes, tant pour les données que pour les analyses est également avancée et des solutions sont proposées. Mes travaux récents m’ont guidé vers la recherche de stratégies propres au locuteur et de sa caractérisation phonétique. Depuis moins de dix ans, les réseaux de neurones profonds ont bouleversé le domaine de la classification, et il paraissait indispensable d’essayer de les utiliser pour l’analyse phonétique. En ayant recours à des réseaux de neurones convolutifs (CNN) par le biais des spectrogrammes, le but était double : (1) savoir jusqu’à quel point le spectrogramme permet de caractériser le locuteur au-delà d’une analyse phonétique classique et (2) au moyen de techniques de visualisation, parvenir à localiser les zones du spectrogrammes utilisées par les CNN. Des résultats encourageants présentés dans la discussion finale donnent un aperçu de mes projets de recherche futurs.

Automatic processing and analysis of variation in speech: from phonetic measurements on large corpora to deep neural networks

Traitement automatique et analyse de la variation dans la parole : des mesures phonétiques sur grands corpus aux réseaux de neurones profonds

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager