3D tongue motion visualization based on the B-mode ultrasound tongue images

Résumé : Une interface vocale silencieuse (SSI) est un système permettant une communication vocale à partir d’un signal non audible. Un tel système emploie des capteurs qui enregistrent des données non-acoustiques, pour la reconnaissance et la synthèse vocales. Cependant, l’extraction des caractéristiques articulatoires robustes à partir de ces signaux reste un défi. La langue est une composante majeure de l'appareil vocal, et l'articulateur le plus important dans la production de parole. Une simulation réaliste du mouvement de la langue en 3D peut fournir une représentation visuelle directe et efficace de la production de parole. Cette représentation pourrait à son tour être utilisée pour améliorer les performances de reconnaissance vocale d'un SSI, ou servir d'outil dans le cadre de recherches sur la production de parole et de l'étude des troubles de l'articulation. Dans cette thèse, nous explorons un nouveau cadre de visualisation en trois dimensions de la langue, qui combine l'imagerie échographique 2D et une technique de modélisation tridimensionnelle fondée sur la physique. Tout d'abord, différentes approches sont utilisées pour suivre le mouvement de la langue dans les séquences d'images échographiques, qui peuvent être regroupées en deux principaux types de méthodes : le suivi de la granularité et le suivi de contour. Les méthodes de suivi du chatoiement (speckle tracking) comprennent le recalage de déformations (deformation registration), le flux optique, et la méthode de transformation de caractéristiques visuelles invariante à l'échelle (Scale-invariant feature transform, ou SIFT). En outre, une méthode de suivi réinitialisation basée sur l'image est proposée afin d'améliorer la robustesse du suivi du chatoiement. En comparaison avec le suivi de chatoiement, l'extraction du contour de la surface de la langue à partir d'images échographiques présente des performances supérieures et une meilleure robustesse. Dans cette thèse, un nouvel algorithme de suivi de contour est présenté pour des séquences d'images échographiques de la langue. Cet algorithme permet de suivre le mouvement des contours de la langue sur de longues durées avec une bonne robustesse. Pour résoudre la difficulté causée par les segments manquants dus au bruit ou celle causée par la surface mi-sagittale de la langue qui est parallèle à la direction de propagation de l'onde ultrasonore, nous proposons d’utiliser des contours actifs avec une contrainte de similitude de contour, qui fournissent des informations a priori sur la forme de la langue. Des expériences sur des données synthétiques et sur des images réelles acquises sur différents sujets à la cadence de 60 images par seconde montrent que la méthode proposée donne un bon contour de suivi pour ultrasons des séquences d'images, même sur des durées de quelques minutes. Cette technique peut par conséquent être utile dans des applications telles que la reconnaissance vocale où de très longues séquences doivent être analysées dans leur intégralité…
Type de document :
Thèse
Computer Aided Engineering. Université Pierre et Marie Curie - Paris VI, 2016. English. 〈NNT : 2016PA066498〉
Liste complète des métadonnées

Littérature citée [56 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01529771
Contributeur : Abes Star <>
Soumis le : mercredi 31 mai 2017 - 12:55:12
Dernière modification le : mercredi 6 février 2019 - 15:31:58
Document(s) archivé(s) le : mercredi 6 septembre 2017 - 16:18:52

Fichier

2016PA066498.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01529771, version 1

Citation

Kele Xu. 3D tongue motion visualization based on the B-mode ultrasound tongue images. Computer Aided Engineering. Université Pierre et Marie Curie - Paris VI, 2016. English. 〈NNT : 2016PA066498〉. 〈tel-01529771〉

Partager

Métriques

Consultations de la notice

369

Téléchargements de fichiers

319