Transformation automatique de la parole - Etude des transformations acoustiques

Larbi Mesbahi

Résumé

The framework of this thesis is automatic voice conversion. The main purpose is to modify the signal of an utterance in order to mimic the voice of an other speaker. State of the art Voice Conversion Systems (VCS) often use Gaussian Mixture Models (GMM) to model source and target voices. Those VCS learn linear conversion functions on the GMMs and can reach fairly good converted voices. However, they are submitted to conception flows linked to the GMM learning stage. Among those flows are over-smoothing, which is an excess of generalization, and its opposite, the over-fitting, which is an excess in specialization. One purpose of this thesis is to explore alternate conversion functions and various mean to train them. The first followed idea is to reduce the number of free parameters of the conversion function. The second idea is to seek out an alternative to linear conversion functions with neural network based (RBF, Radial Basis Functions) conversion function. This thesis also focuses on the data used to train GMMs and conversion function. Indeed, in order to train the conversion function, speech bits coming from source and target speakers must be matched. But, in most use cases, the sentences uttered by the two speakers differ and, consequently, it is impossible to form parallel training corpora. Our proposal consists in matching vectors previously distributed in acoustic classes by a joint tree build on existing data. Lastly, the parametrization step is studied for it contributes to the quality of the converted voice. Indeed, a maximum of the speaker characterization must pass on the parametrized data. In this scope, we chose to use the True-Envelope characterization. But, as have shown previous studies, the dimensionality of this parametrization must be reduced for the data to be used as training material. To achieve that, Principal Component Analysis is used. This solution is even more efficient when used to derive phone-specific conversion functions.

Le travail effectué dans cette thèse s'insère dans le cadre de la conversion automatique de la voix. La problématique générale est de modifier le signal d'un énoncé pour qu'il soit perçu comme prononcé par une autre personne. Les Systèmes de Conversion de Voix (SCV) de l'état de l'art utilisent pour la plupart des modèles de voix probabilistes GMM (Gaussian Mixture Models). Ces SCV utilisent des fonctions de conversion linéaires apprises à partir des GMMs. Elles permettent d'obtenir des voix converties de bonne qualité. Cependant, elles sont soumises à des défauts de conception liées à l'apprentissage de ces modèles. On peut ainsi noter le surlissage (oversmoothing) qui est une généralisation trop poussée et son opposé, le sur-apprentissage (overfitting) qui est une spécialisation trop poussée. Un aspect de cette thèse explore différentes stratégies d'apprentissage des fonctions de conversion. La première piste suivie est la réduction du nombre des paramètres libres de la fonction de conversion. La deuxième propose une alternative aux fonctions de conversion linéaires basées sur des GMMs en recourant aux modèles de transformation non-linéaire à base de réseaux de Neurones (RBF, Radial Basis Functions). Cette thèse s'intéresse d'autre part aux données utilisées pour apprendre les modèles de voix et les transformations. En effet, pour apprendre la fonction de conversion, les données issues des locuteurs source et cible doivent être mises en correspondance. Or, dans la plupart des cas d'utilisation, ces données ne sont pas parallèles. Autrement dit, les deux locuteurs n'ont pas prononcé suffisamment de phrases similaires. Notre proposition consiste à faire correspondre ces données lacunaires en les décomposant en classes acoustiques et en s'appuyant sur l'appariement, classique, des classes acoustiques cibles et sources. Enfin, notre intérêt se porte sur la paramètrisation de la voix car, pour obtenir une haute qualité de voix, il est nécessaire que cette paramètrisation conserve un maximum d'information sur le locuteur. Il s'agit en l'occurrence de l'enveloppe de son signal, obtenue fidèlement par la méthode de True-Envelope. Or, les premières études ont montré que ces données doivent être réduites pour nourrir un modèle probabiliste efficace. Pour cela, nous avons recours à la technique de réduction de dimension d'analyse par composantes principales (PCA, Principal componant analysis). Cette solution s'avère plus efficace lorsqu'on différencie les fonctions de transformation selon la classe phonétique.

Automatic voice transformation - Study of acoustic transformations

Transformation automatique de la parole - Etude des transformations acoustiques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager