Conversion de voix pour la synthèse de la parole - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2005

Voice Conversion for Speech Synthesis System

Conversion de voix pour la synthèse de la parole

Résumé

This thesis lies within the scope of the research tasks undertaken by division R&D of France Telecom in the text-to-speech synthesis field. More particularly, it relates to the field of voice conversion, a technology aiming at modifying a source speaker's speech so that it is perceived as another speaker had uttered it. The aim of this thesis is thus the diversification of synthesis voice via the design and the development of a high quality voice conversion system. The approaches studied in this thesis are based on GMM classification techniques and HNM modeling of speech signal. First, the influence of the spectral features coding on the GMM-based voice conversion performance is analyzed. Then, the dependence between the spectral envelope and the fundamental frequency is highlighted. Two voice conversion methods exploiting this dependence are proposed and then evaluated favorably compared to the existing state of the art. Problems related to the implementation of the voice conversion system are also tackled. The first problem is the high complexity of the voice conversion process compared to the synthesis process itself (the conversion task costs between 1.5 and 2 times more than the synthesis task itself). For that, a simplified GMM-based voice conversion procedure was presented, which enables reducing the conversion complexity by a factor between 45 and 130. The second problem relates to the learning of voice conversion function when the source and target training corpus are different. A method making possible the training of the transformation function using unspecified recordings was thus proposed.
Cette thèse s'inscrit dans le cadre des travaux de recherche entrepris par la division R&D de France Telecom dans le domaine de la synthèse de la parole à partir du texte. Elle concerne plus particulièrement le domaine de la conversion de voix, technologie visant à transformer le signal de parole d'un locuteur de référence dit locuteur source, de telle façon qu'il semble, à l'écoute, avoir été prononcé par un autre locuteur cible, identifié au préalable, dit locuteur cible. Le but de cette thèse est donc la diversification de voix de synthèse via la conception et le développement d'un système de conversion de voix de haute qualité. Les approches étudiées dans cette thèse se basent sur des techniques de classification par GMM (Gaussian Mixture Model) et une modélisation du signal de parole par HNM (Harmonic plus Noise Model). Dans un premier temps, l'influence de la paramétrisation spectrale sur la performance de conversion de voix par GMM est analysée. Puis, la dépendance entre l'enveloppe spectrale et la fréquence fondamentale est mise en évidence. Deux méthodes de conversion exploitant cette dépendance sont alors proposées et évaluées favorablement par rapport à l'état de l'art existant. Les problèmes liés à la mise en oeuvre de la conversion de voix sont également abordés. Le premier problème est la complexité élevée du processus de conversion par rapport au processus de synthèse lui-même (entre 1,5 et 2 fois le coût de calcul de la synthèse elle-même). Pour cela, une technique de conversion a été développée et conduit à une réduction de la complexité d'un facteur compris entre 45 et 130. Le deuxième problème concerne la mise en oeuvre de la conversion de voix lorsque les corpus d'apprentissage source et cible sont différents. Une méthodologie a ainsi été proposée rendant possible l'apprentissage de la fonction de transformation à partir d'enregistrements quelconques.
Fichier principal
Vignette du fichier
tel-00009570.pdf (1.37 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00009570 , version 1 (22-06-2005)

Identifiants

  • HAL Id : tel-00009570 , version 1

Citer

Taoufik En-Najjary. Conversion de voix pour la synthèse de la parole. Traitement du signal et de l'image [eess.SP]. Université Rennes 1, 2005. Français. ⟨NNT : ⟩. ⟨tel-00009570⟩
372 Consultations
1865 Téléchargements

Partager

Gmail Facebook X LinkedIn More