Skip to Main content Skip to Navigation
Theses

Prédiction de performances des systèmes de Reconnaissance Automatique de la Parole

Résumé : Nous abordons dans cette thèse la tâche de prédiction de performances des systèmes de reconnaissance automatique de la parole (SRAP).Il s'agit d'une tâche utile pour mesurer la fiabilité d'hypothèses de transcription issues d'une nouvelle collection de données, lorsque la transcription de référence est indisponible et que le SRAP utilisé est inconnu (boîte noire).Notre contribution porte sur plusieurs axes:d'abord, nous proposons un corpus français hétérogène pour apprendre et évaluer des systèmes de prédiction de performances ainsi que des systèmes de RAP.Nous comparons par la suite deux approches de prédiction: une approche à l'état de l'art basée sur l'extraction explicite de traitset une nouvelle approche basée sur des caractéristiques entraînées implicitement à l'aide des réseaux neuronaux convolutifs (CNN).L'utilisation jointe de traits textuels et acoustiques n'apporte pas de gains avec de l'approche état de l'art,tandis qu'elle permet d'obtenir de meilleures prédictions en utilisant les CNNs. Nous montrons également que les CNNs prédisent clairement la distribution des taux d'erreurs sur une collection d'enregistrements, contrairement à l'approche état de l'art qui génère une distribution éloignée de la réalité.Ensuite, nous analysons des facteurs impactant les deux approches de prédiction. Nous évaluons également l'impact de la quantité d'apprentissage des systèmes de prédiction ainsi que la robustesse des systèmes appris avec les sorties d'un système de RAP particulier et utilisés pour prédire la performance sur une nouvelle collection de données.Nos résultats expérimentaux montrent que les deux approches de prédiction sont robustes et que la tâche de prédiction est plus difficile sur des tours de parole courts ainsi que sur les tours de parole ayant un style de parole spontané.Enfin, nous essayons de comprendre quelles informations sont capturées par notre modèle neuronal et leurs liens avec différents facteurs.Nos expériences montrent que les représentations intermédiaires dans le réseau encodent implicitementdes informations sur le style de la parole, l'accent du locuteur ainsi que le type d'émission.Pour tirer profit de cette analyse, nous proposons un système multi-tâche qui se montre légèrement plus efficace sur la tâche de prédiction de performance.
Complete list of metadatas

Cited literature [121 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02173343
Contributor : Abes Star :  Contact
Submitted on : Thursday, July 4, 2019 - 2:06:59 PM
Last modification on : Wednesday, July 1, 2020 - 9:36:02 AM

File

ELLOUMI_2019_archivage.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-02173343, version 1

Collections

Citation

Zied Elloumi. Prédiction de performances des systèmes de Reconnaissance Automatique de la Parole. Automatique. Université Grenoble Alpes, 2019. Français. ⟨NNT : 2019GREAM005⟩. ⟨tel-02173343⟩

Share

Metrics

Record views

340

Files downloads

343