Attelage de systèmes de transcription automatique de la parole

Résumé : Nous abordons, dans cette thèse, les méthodes de combinaison de systèmesde transcription de la parole à Large Vocabulaire. Notre étude se concentre surl’attelage de systèmes de transcription hétérogènes dans l’objectif d’améliorerla qualité de la transcription à latence contrainte. Les systèmes statistiquessont affectés par les nombreuses variabilités qui caractérisent le signal dela parole. Un seul système n’est généralement pas capable de modéliserl’ensemble de ces variabilités. La combinaison de différents systèmes detranscription repose sur l’idée d’exploiter les points forts de chacun pourobtenir une transcription finale améliorée. Les méthodes de combinaisonproposées dans la littérature sont majoritairement appliquées a posteriori,dans une architecture de transcription multi-passes. Cela nécessite un tempsde latence considérable induit par le temps d’attente requis avant l’applicationde la combinaison.Récemment, une méthode de combinaison intégrée a été proposée. Cetteméthode est basée sur le paradigme de décodage guidé (DDA :Driven DecodingAlgorithm) qui permet de combiner différents systèmes durant le décodage. Laméthode consiste à intégrer des informations en provenance de plusieurs systèmes dits auxiliaires dans le processus de décodage d’un système dit primaire.Notre contribution dans le cadre de cette thèse porte sur un double aspect : d’une part, nous proposons une étude sur la robustesse de la combinaison par décodage guidé. Nous proposons ensuite, une amélioration efficacement généralisable basée sur le décodage guidé par sac de n-grammes,appelé BONG. D’autre part, nous proposons un cadre permettant l’attelagede plusieurs systèmes mono-passe pour la construction collaborative, à latenceréduite, de la sortie de l’hypothèse de reconnaissance finale. Nous présentonsdifférents modèles théoriques de l’architecture d’attelage et nous exposons unexemple d’implémentation en utilisant une architecture client/serveur distribuée. Après la définition de l’architecture de collaboration, nous nous focalisons sur les méthodes de combinaison adaptées à la transcription automatiqueà latence réduite. Nous proposons une adaptation de la combinaison BONGpermettant la collaboration, à latence réduite, de plusieurs systèmes mono-passe fonctionnant en parallèle. Nous présentons également, une adaptationde la combinaison ROVER applicable durant le processus de décodage via unprocessus d’alignement local suivi par un processus de vote basé sur la fréquence d’apparition des mots. Les deux méthodes de combinaison proposéespermettent la réduction de la latence de la combinaison de plusieurs systèmesmono-passe avec un gain significatif du WER.
Type de document :
Thèse
Ordinateur et société [cs.CY]. Université du Maine, 2012. Français. 〈NNT : 2012LEMA1026〉
Liste complète des métadonnées

Littérature citée [91 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00839990
Contributeur : Abes Star <>
Soumis le : lundi 1 juillet 2013 - 12:37:11
Dernière modification le : jeudi 11 janvier 2018 - 06:14:33
Document(s) archivé(s) le : mercredi 2 octobre 2013 - 04:12:32

Fichier

These_Bougares_Fethi._converti...
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-00839990, version 1

Collections

Citation

Fethi Bougares. Attelage de systèmes de transcription automatique de la parole. Ordinateur et société [cs.CY]. Université du Maine, 2012. Français. 〈NNT : 2012LEMA1026〉. 〈tel-00839990〉

Partager

Métriques

Consultations de la notice

450

Téléchargements de fichiers

618