Glottal source and vocal-tract separation

Gilles Degottex

Résumé

This study addresses the problem of inverting a voice production model to retrieve, for a given recording, a representation of the sound source which is generated at the glottis level, the glottal source, and a representation of the resonances and anti-resonances of the vocal-tract. This separation gives the possibility to manipulate independently the elements composing the voice. There are many applications of this subject like the ones presented in this study, namely voice transformation and speech synthesis, as well as many others such as identity conversion, expressivity synthesis, voice restoration which can be used in entertainment technologies, artistic sound installations, movies and music industry, toys and video games, telecommunication, etc. In this study, we assume that the perceived elements of the voice can be manipulated using the well known source-filter model. In the spectral domain, voice production is thus described as a multiplication of the spectra of its elements, the glottal source, the vocal-tract filter and the radiation. The second assumption used in this study concerns the deterministic component of the glottal source. Indeed, we assume that a glottal model can fit one period of the glottal source. Using such an analytical description, the amplitude and phase spectra of the deterministic source are linked through the shape parameter of the glottal model. Regarding the state of the art of voice transformation and speech synthesis methods, the naturalness and the control of the transformed and synthesized voices should be improved. Accordingly, we try to answer the three following questions: 1) How to estimate the parameter of a glottal model? 2) How to estimate the vocal-tract filter according to this glottal model? 3) How to transform and synthesize a voiced signal using this glottal model? Special attention is given to the first question. We first assume that the glottal source and the impulse response of the vocal-tract filter are mixed-phase and minimum-phase signals respectively. Then, based on these properties, various methods are proposed which minimize the mean squared phase of the convolutive residual of an observed spectrum and its model. A last method is described where a unique shape parameter is in a quasi closed-form expression of the observed spectrum. Additionally, this study discusses the conditions a glottal model and its parametrization have to satisfy in order to ensure that the parameters estimation is reliable using the proposed methods. These methods are also evaluated and compared to state of the art methods using synthetic and electroglottographic signals. Using one of the proposed methods, the estimation of the shape parameter is independent of the position and the amplitude of the glottal model. Moreover, it is shown that this same method outperforms all the compared methods. To answer the second and third questions addressed in this study, we propose an analysis/synthesis procedure which estimates the vocal-tract filter according to an observed spectrum and its estimated source. Preference tests have been carried out and their results are presented in this study to compare the proposed procedure to existing ones. In terms of pitch transposition, it is shown that the overall quality of the voiced segments of a recording can be improved for important transposition factors. It is also shown that the breathiness of a voice can be controlled.

Cette étude s'intéresse au problème de l'inversion d'un modèle de production de la voix pour obtenir, à partir d'un enregistrement audio de parole, une représentation de le source sonore qui est générée au niveau de la glotte, la source glottique, ainsi qu'un représentation des résonances et anti-résonances créées par le conduit vocal. Cette séparation permet de manipuler les éléments composant la voix de façon indépendente. On trouve de nombreuses applications de ce sujet comme celles présentées dans cette étude (transformation de la voix et synthèse de la parole) et bien d'autres comme la conversion d'identité, la synthèse d'expressivité, la restauration de la voix qui peuvent être utilisées dans les technologies de divertissement, des installations sonores, les industries de la musique et du cinéma, les jeux vidéos et autres jouets sonores, la télécommunication, etc. Dans cette étude, nous supposons que les éléments perçus de la voix peuvent être manipulés en utilisant le modèle source-filtre. Dans le domaine spectral, la production de la voix est donc décrite comme une multiplication des spectres de ses éléments, la source glottique, le filtre du conduit vocal et la radiation. La seconde hypothèse utilisée dans cette étude concerne la composante déterministe de la source glottique. En effet, nous supposons qu'un modèle glottique peut schématiser une période de la source glottique. En utilisant une telle description analytique, les spectres d'amplitude et de phase de la source déterministe sont donc liés par les paramètres de forme du modèle glottique. Vis-à-vis de l'état de l'art des méthodes de transformation de la voix et de sa synthèse, le naturel et le contrôle de ces voix devraient donc être améliorés en utilisant un tel modèle. Par conséquent, nous essayons de répondre au trois questions suivantes dans cette étude: 1) Comment estimer un paramètre de forme d'un modèle glottique. 2) Comment estimer le filtre du conduit vocal en utilisant ce modèle glottique. 3) Comment transformer et synthétiser un signal vocal en utilisant toujours ce même modèle. Une attention toute particulière à été portée à la première question. Premièrement, nous supposons que la source glottique est un signal à phase mixte et que la réponse impulsionnelle du filtre du conduit vocal est un signal à minimum de phase. Puis, considérant ces propriétés, différentes méthodes sont proposées qui minimisent la phase carrée moyenne du résiduel convolutif d'un spectre de parole observé et de son modèle. Une dernière méthode est décrite où un unique paramètre de forme est solution d'une forme quasi fermée du spectre observé. De plus, cette étude discute les conditions qu'un modèle glottique et sa paramétrisation doivent satisfaire pour assurer que les paramètres sont estimés de façon fiable en utilisant les méthodes proposées. Ces méthodes sont également évaluées et comparées avec des méthodes de l'état de l'art en utilisant des signaux synthétiques et electro-glotto-graphiques. En utilisant une des méthodes proposées, l'estimation du paramètre de forme est indépendante de la position et de l'amplitude du modèle glottique. En plus, il est montré que cette même méthode surpasse toute les méthodes comparées en terme d'efficacité. Pour répondre à la deuxième et à la troisième question, nous proposons une procédure d'analyse/synthèse qui estime le filtre du conduit vocal en utilisant un spectre observé et sa source estimée. Des tests de préférences ont été menés et leurs résultats sont présentés dans cette étude pour comparer la procédure décrite et d'autres méthodes existantes. En terme de transposition de hauteur perçue, il est montré que la qualité globale des segments voisés d'un enregistrement peut être meilleure pour des facteurs de transposition importants en utilisant la méthode proposée. Il est aussi montré que le souffle perçu d'une voix peut être contrôlé efficacement.

Glottal source and vocal-tract separation

Séparation de la source glottique des influences du conduit vocal

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager