Study of unit selection text-to-speech synthesis algorithms

Résumé : La synthèse de la parole par corpus (sélection d'unités) est le sujet principal de cette thèse. Tout d'abord, une analyse approfondie et un diagnostic de l'algorithme de sélection d'unités (algorithme de recherche dans le treillis d'unités) sont présentés. L'importance de l'optimalité de la solution est discutée et une nouvelle mise en œuvre de la sélection basée sur un algorithme A* est présenté. Trois améliorations de la fonction de coût sont également présentées. La première est une nouvelle façon – dans le coût cible – de minimiser les différences spectrales en sélectionnant des séquences d'unités minimisant un coût moyen au lieu d'unités minimisant chacune un coût cible de manière absolue. Ce coût est testé pour une distance sur la durée phonémique mais peut être appliqué à d'autres distances. Notre deuxième proposition est une fonction de coût cible visant à améliorer l'intonation en se basant sur des coefficients extraits à travers une version généralisée du modèle de Fujisaki. Les paramètres de ces fonctions sont utilisés au sein d'un coût cible. Enfin, notre troisième contribution concerne un système de pénalités visant à améliorer le coût de concaténation. Il pénalise les unités en fonction de classes reposant sur une hiérarchie du degré de risque qu'un artefact de concaténation se produise lors de la concaténation sur un phone de cette classe. Ce système est différent des autres dans la littérature en cela qu'il est tempéré par une fonction floue capable d'adoucir le système de pénalités pour les unités présentant des coûts de concaténation parmi les plus bas de leur distribution.
Type de document :
Thèse
Data Structures and Algorithms [cs.DS]. Université Rennes 1, 2016. English. 〈NNT : 2016REN1S055〉
Liste complète des métadonnées

Littérature citée [36 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01439413
Contributeur : Abes Star <>
Soumis le : mercredi 18 janvier 2017 - 15:57:10
Dernière modification le : mercredi 21 février 2018 - 01:54:26
Document(s) archivé(s) le : mercredi 19 avril 2017 - 15:13:24

Fichier

GUENNEC_David.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01439413, version 1

Citation

David Guennec. Study of unit selection text-to-speech synthesis algorithms. Data Structures and Algorithms [cs.DS]. Université Rennes 1, 2016. English. 〈NNT : 2016REN1S055〉. 〈tel-01439413〉

Partager

Métriques

Consultations de la notice

293

Téléchargements de fichiers

368