Évaluation expérimentale d'un système statistique de synthèse de la parole, HTS, pour la langue française

Sébastien Le Maguer

Thèse Année : 2013

Experimental evaluation of a statistical speech synthesis system, HTS, for french

Évaluation expérimentale d'un système statistique de synthèse de la parole, HTS, pour la langue française

(1)

Sébastien Le Maguer

Fonction : Auteur

Human-machine spoken dialogue

Résumé

The work presented in this thesis is about TTS speech synthesis and, more particularly, about statistical speech synthesis for French. We present an analysis on the impact of the linguistic contextual factors on the synthesis achieved by the HTS statistical speech synthesis system. To conduct the experiments, two objective evaluation protocols are proposed. The first one uses Gaussian mixture models (GMM) to represent the acoustical space produced by HTS according to a contextual feature set. By using a constant reference set of natural speech stimuli, GMM can be compared between themselves and consequently acoustic spaces generated by HTS. The second objective evaluation that we propose is based on pairwise distances between natural speech and synthetic speech generated by HTS. Results obtained by both protocols, and confirmed by subjective evaluations, show that using a large set of contextual factors does not necessarily improve the modeling and could be counter-productive on the speech quality.

Les travaux présentés dans cette thèse se situent dans le cadre de la synthèse de la parole à partir du texte et, plus précisément, dans le cadre de la synthèse paramétrique utilisant des règles statistiques. Nous nous intéressons à l'influence des descripteurs linguistiques utilisés pour caractériser un signal de parole sur la modélisation effectuée dans le système de synthèse statistique HTS. Pour cela, deux méthodologies d'évaluation objective sont présentées. La première repose sur une modélisation de l'espace acoustique, généré par HTS par des mélanges gaussiens (GMM). En utilisant ensuite un ensemble de signaux de parole de référence, il est possible de comparer les GMM entre eux et ainsi les espaces acoustiques générés par les différentes configurations de HTS. La seconde méthodologie proposée repose sur le calcul de distances entre trames acoustiques appariées pour pouvoir évaluer la modélisation effectuée par HTS de manière plus locale. Cette seconde méthodologie permet de compléter les diverses analyses en contrôlant notamment les ensembles de données générées et évaluées. Les résultats obtenus selon ces deux méthodologies, et confirmés par des évaluations subjectives, indiquent que l'utilisation d'un ensemble complexe de descripteurs linguistiques n'aboutit pas nécessairement à une meilleure modélisation et peut s'avérer contre-productif sur la qualité du signal de synthèse produit.

Mots clés

Computer science Speech processing Text-to-Speech synthesis Hts

Informatique Traitement automatique de la parole Synthèse de la parole à partir du texte Hts

Domaines

Autre [cs.OH]

Fichier principal

LE_MAGUER_Sebastien.pdf (2.69 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-00913565

Soumis le : mardi 21 janvier 2014-15:12:08

Dernière modification le : jeudi 6 avril 2023-04:58:43

Archivage à long terme le : mardi 22 avril 2014-09:55:54

Dates et versions

tel-00913565 , version 1 (03-12-2013)

tel-00913565 , version 2 (21-01-2014)

Identifiants

HAL Id : tel-00913565 , version 2

Citer

Sébastien Le Maguer. Évaluation expérimentale d'un système statistique de synthèse de la parole, HTS, pour la langue française. Autre [cs.OH]. Université de Rennes, 2013. Français. ⟨NNT : 2013REN1S088⟩. ⟨tel-00913565v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA STAR IRISA-D6 INRIA2 UR1-THESES UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

423 Consultations

865 Téléchargements

Experimental evaluation of a statistical speech synthesis system, HTS, for french

Évaluation expérimentale d'un système statistique de synthèse de la parole, HTS, pour la langue française

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager