Modélisation et synthèse de voix chantée à partir de descripteurs visuels extraits d'images échographiques et optiques des articulateurs

Résumé : Le travail présenté dans cette thèse porte principalement sur le développement de méthodes permettant d'extraire des descripteurs pertinents des images acquises des articulateurs dans les chants rares : les polyphonies traditionnelles Corses, Sardes, la musique Byzantine, ainsi que le Human Beat Box. Nous avons collecté des données, et employons des méthodes d'apprentissage statistique pour les modéliser, notamment les méthodes récentes d'apprentissage profond (Deep Learning).Nous avons étudié dans un premier temps des séquences d'images échographiques de la langue apportant des informations sur l'articulation, mais peu lisibles sans connaissance spécialisée en échographie. Nous avons développé des méthodes pour extraire de façon automatique le contour supérieur de la langue montré par les images échographiques. Nos travaux ont donné des résultats d'extraction du contour de la langue comparables à ceux obtenus dans la littérature, ce qui pourrait permettre des applications en pédagogie du chant.Ensuite, nous avons prédit l'évolution des paramètres du filtre qu'est le conduit vocal depuis des séquences d'images de langue et de lèvres, sur des bases de données constituées de voyelles isolées puis de chants traditionnels Corses. L'utilisation des paramètres du filtre du conduit vocal, combinés avec le développement d'un modèle acoustique de source vocale exploitant l'enregistrement électroglottographique, permet de synthétiser des extraits de voix chantée en utilisant les images articulatoires (de la langue et des lèvres)et l'activité glottique, avec des résultats supérieurs à ceux obtenus avec les techniques existant dans la littérature.
Type de document :
Thèse
Electronique. Université Pierre et Marie Curie - Paris VI, 2016. Français. < NNT : 2016PA066223 >
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-01441742
Contributeur : Abes Star <>
Soumis le : vendredi 20 janvier 2017 - 10:34:06
Dernière modification le : mardi 11 juillet 2017 - 01:12:08
Document(s) archivé(s) le : vendredi 21 avril 2017 - 13:34:22

Fichier

2016PA066223.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01441742, version 1

Collections

Citation

Aurore Jaumard-Hakoun. Modélisation et synthèse de voix chantée à partir de descripteurs visuels extraits d'images échographiques et optiques des articulateurs. Electronique. Université Pierre et Marie Curie - Paris VI, 2016. Français. < NNT : 2016PA066223 >. <tel-01441742>

Partager

Métriques

Consultations de
la notice

300

Téléchargements du document

115