Acoustic-Visual Speech Synthesis by Bimodal Unit Selection

Utpala Musti 1
1 PAROLE - Analysis, perception and recognition of speech
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Ce travail porte sur la synthèse de la parole audio-visuelle. Dans la littérature disponible dans ce domaine, la plupart des approches traite le problème en le divisant en deux problèmes de synthèse. Le premier est la synthèse de la parole acoustique et l'autre étant la génération d'animation faciale correspondante. Mais, cela ne garantit pas une parfaite synchronisation et cohérence de la parole audio-visuelle. Pour pallier implicitement l'inconvénient ci-dessus, nous avons proposé une approche de synthèse de la parole acoustique-visuelle par la sélection naturelle des unités synchrones bimodales. La synthèse est basée sur le modèle de sélection d'unité classique. L'idée principale derrière cette technique de synthèse est de garder l'association naturelle entre la modalité acoustique et visuelle intacte. Nous décrivons la technique d'acquisition de corpus audio-visuelle et la préparation de la base de données pour notre système. Nous présentons une vue d'ensemble de notre système et nous détaillons les différents aspects de la sélection d'unités bimodales qui ont besoin d'être optimisées pour une bonne synthèse. L'objectif principal de ce travail est de synthétiser la dynamique de la parole plutôt qu'une tête parlante complète. Nous décrivons les caractéristiques visuelles cibles que nous avons conçues. Nous avons ensuite présenté un algorithme de pondération de la fonction cible. Cet algorithme que nous avons développé effectue une pondération de la fonction cible et l'élimination de fonctionnalités redondantes de manière itérative. Elle est basée sur la comparaison des classements de coûts cible et en se basant sur une distance calculée à partir des signaux de parole acoustiques et visuels dans le corpus. Enfin, nous présentons l'évaluation perceptive et subjective du système de synthèse final. Les résultats montrent que nous avons atteint l'objectif de synthétiser la dynamique de la parole raisonnablement bien.
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-01749331
Contributeur : Slim Ouni <>
Soumis le : samedi 11 janvier 2014 - 00:27:06
Dernière modification le : mardi 18 décembre 2018 - 16:38:02
Document(s) archivé(s) le : vendredi 11 avril 2014 - 22:25:12

Fichier

Identifiants

  • HAL Id : tel-01749331, version 2

Citation

Utpala Musti. Acoustic-Visual Speech Synthesis by Bimodal Unit Selection. Machine Learning [cs.LG]. Université de Lorraine, 2013. English. 〈NNT : 2013LORR0003〉. 〈tel-01749331v2〉

Partager

Métriques

Consultations de la notice

275

Téléchargements de fichiers

187