Transcription automatique de la parole spontanée

Richard Dufour

Abstract

Automatic speech recognition (ASR) systems currently reach enough performance to be integrated in various applications (human-machine dialogue, information retrieval, automatic indexing ...). However, in the context of large vocabulary speech recognition, which is used eg for transcribing radio broadcast, the quality of transcripts varies depending on the type of speech contained in the documents. Indeed, the ASR system performance are much better when transcribing prepared speech, close to a read text . Transcribing pontaneous speech is much more dificult, as it is characterized by many features (disfluencies, ungrammaticality, decreased the fluidity of speech...). This thesis work is the treatment of spontaneous speech and is part of the EPAC project. The main objective is to propose solutions to improve the ASR performance on this type of speech. We chose to address in our work, spontaneous speech as a particular object of study requiring specific treatments. Thus, in a first step, we propose a tool for automatic detection of spontaneous speech, based on its specificities. This tool is very important because it allows us, in a second time, to propose an approach for acoustic and language model adaptation of the ASR system on spontaneous speech without adding data, by automatically selecting the segments containing this type of speech. The transcript resulting from this adaptation offers recognition hypotheses different from those provided by the base system. The combination of these two proposals transcription show a significant reduction of the word error rate. This need for specific solutions finally facing some of our work toward correcting a specific problem, especially present in French: homophony. We then seek to correct the transcripts provided by an ASR system, using a method offering specific solutions to specific problems of homophony. The approach focuses on correcting errors, to which a particular solution is proposed. This post-processing method of ASR systems corrects some classes of words and homophones, regardless of the ASR system used.

Les systèmes de Reconnaissance Automatique de la Parole (RAP) atteignent actuellement des performances suffisantes pour être intégrés dans diverses applications (dialogue homme-machine, recherche d'information, indexation automatique...). Cependant, dans le cadre de la reconnaissance automatique de la parole continue à grand vocabulaire, que l'on utilise par exemple pour transcrire des émissions radiophoniques d'information, la qualité des transcriptions varie selon le type de parole contenu dans les documents. En effet, les systèmes de RAP ont beaucoup plus de facilité à transcrire de la parole préparée, proche d'un texte lu, que de la parole spontanée, caractérisée par de nombreuses spécificités (disfluences, agrammaticalité, baisse de la fluidité de la parole...). Le travail de cette thèse vise le traitement de la parole spontanée et s'inscrit dans le cadre du projet EPAC (Exploration de masse de documents audio pour l'extraction et le traitement de la PArole Conversationnelle). L'objectif principal est de proposer des solutions pour améliorer les performances des systèmes de RAP sur ce type de parole. Nous avons choisi d'aborder, dans notre travail, la parole spontanée en tant qu'objet d'étude particulier nécessitant des traitements spécifiques. Ainsi, dans un premier temps, nous proposons un outil de détection automatique de la parole spontanée, basé sur les spécificités de ce type de parole. Cet outil est très important puisqu'il nous permet, dans un deuxième temps, de proposer une approche d'adaptation des modèles acoustiques et des modèles de langage du système de RAP à la parole spontanée sans ajout de données, en sélectionnant automatiquement les segments contenant ce type de parole. La transcription résultant de cette adaptation propose des hypothèses de reconnaissance différentes de celles fournies par le système de base. La combinaison de ces deux propositions de transcription permet d'observer une réduction significative du taux d'erreur-mot. Ce besoin de solutions spécifiques a finalement orienté une partie de notre travail vers la correction d'un problème particulièrement présent en français : l'homophonie. Nous cherchons alors à corriger les transcriptions, fournies par un système de RAP, au moyen d'une méthode proposant des solutions spécifiques à certains problèmes particuliers de l'homophonie. L'approche se focalise sur la correction de certaines erreurs, auxquelles une solution particulière est proposée. Cette méthode, en post-traitement des systèmes de RAP, corrige certains mots et classes de mots homophones, indépendamment du système de RAP utilisé.

Automatic transcription of spontaneous speech

Transcription automatique de la parole spontanée

Abstract

Keywords

Domains

Dates and versions

Identifiers

Cite

Export

Collections

Share