Analyzing of the vocal fold dynamics using laryngeal videos

Résumé : La voix est l’outil essentiel de la communication entre les êtres humains. C’est ainsi qu’avoir une voix en bonne santé est important dans la vie de tous les jours et plus encore si on l’utilise comme outil de travail. Par conséquent, il est impératif de trouver de nouvelles techniques plus performantes pour comprendre les mécanismes impliqués dans la production de la voix et surtout pour saisir le comportement vibratoire des plis vocaux grâce aux Vidéos Haute Vitesse du Larynx (Laryngeal High-Speed Videoendoscopy (LHSV)). Les études décrites ci-après ont pour objectif de contribuer à l’analyse de la fonction vibratoire des plis vocaux grâce à l’implémentation d’outils plus fiables utilisant des techniques de traitement des images. La masse des informations à traiter tant sur le plan qualitatif que quantitatif est telle qu’il est nécessaire de synthétiser ces informations spatio-temporelles en quelques représentations statiques reflétant avec précision le mouvement des plis vocaux. Jusqu’à présent, la majorité des avancées dans ce domaine ont été réalisées grâce à la segmentation et au suivi de l’ouverture glottale. Ce type de travail n’est pas aisé notamment à cause de facteurs tels que le bruit sur les images, la variation lumineuse, les différents niveaux de gris représentant l’ouverture glottale, le flou des images, le flou des contours de l’ouverture glottale, le mouvement de la caméra vidéo et/ou des patients. Afin de résoudre les problèmes précédemment cités, on a utilisé deux algorithmes pour segmenter l’ouverture glottale. Le premier algorithme, appelé segmentation glottale basée sur la technique de ligne de partage des eaux et contours actifs (Glottal Segmentation Based on Watershed Transform and Active Contours (SnW)) identifie une région d’intérêt (Region of Interest (ROI)) qui s’actualise automatiquement. Cette méthode combine l’utilisation de modèles déformables (Deformable Models) et de segmentation par ligne de partage des eaux (Watershed Transform) pour délimiter l’ouverture glottale. Grâce à l’implémentation d’une ROI, cette méthode n’est pas sensibles aux mouvements de la caméra vidéo. Le deuxième algorithme, appelé segmentation glottale basée sur la soustraction des bruits et la reconstruction d’images (Glottal Segmentation Based on Background Subtraction and Inpainting (InP)), s’effectue semi-automatiquement pour segmenter avec précision l’ouverture glottale en utilisant différentes techniques encore jamais utilisées. La méthodologie proposée avec l’InP permet à l’utilisateur de réaliser des interventions minimes dans les cas où la segmentation automatique aurait échoué. De plus, il sera exposé un ensemble de directives pour mesurer la précision et l’efficacité des algorithmes. Ces directives se divisent en trois groupes : analytiques, subjectives et objectives. Les résultats obtenus à partir de ces directives suggèrent que l’algorithme le plus fiable pour la segmentation de l’ouverture glottale est l’InP étant plus précis de 13% par rapport à autres et de 18% par rapport à SnW. Il est également démontré que ces directives peuvent être utilisées pour standardiser les critères de précision et d’efficacité pour l’évaluation des algorithmes de segmentation glottale. Enfin, dans cette étude, sont présentées les recherches concernant l’usage du flux optique (Optical Flow (OF)) pour résoudre les questions liées à la segmentation glottale. L’OF permet trois nouvelles représentations pour comprendre la dynamique des plis vocaux. Deux d’entre elles analysent la dynamique glottale: le flux optique vibrogramme (Optical Flow Glottovibrogram (OFGVG)) et le flux optique en onde (Glottal Optical Flow Waveform (GOFW)). Le troisième, appelé flux optique Quimogramme (Optical Flow Kymogram (OFKG)) analyse les dynamiques locales des plis vocaux. On présentera les avantages et inconvénients ainsi que la contribution de ces représentations aux méthodes existantes. Ces nouvelles représentations ont été évaluées à l’aide d’une base de données de 60 LHSV qui inclue différentes qualités de voix parlées et chantées. Les représentations basées sur l’OF ont été comparées avec les représentations obtenues grâce aux méthodes de segmentation, démontrant qu’elles apportent des informations supplémentaires sur la dynamique temporelle des mouvements vibratoires de la glotte pendant les phases de fermeture ou d’ouverture glottales.
Type de document :
Thèse
Signal and Image Processing. Universidad Politécnica de Madrid, 2017. English
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-01585708
Contributeur : Gustavo Andrade Miranda <>
Soumis le : mardi 12 septembre 2017 - 18:57:27
Dernière modification le : mercredi 13 septembre 2017 - 10:20:46

Fichier

Identifiants

  • HAL Id : tel-01585708, version 1

Citation

Gustavo Andrade-Miranda. Analyzing of the vocal fold dynamics using laryngeal videos. Signal and Image Processing. Universidad Politécnica de Madrid, 2017. English. 〈tel-01585708〉

Partager

Métriques

Consultations de la notice

38

Téléchargements de fichiers

14