Diagnostic pour la combinaison de systèmes de reconnaissance automatique de la parole.

Loïc Barrault

Résumé

Automatic Speech Recognition (ASR) is affected by many variabilities present in the speech signal. Despite sophisticated techniques, a single ASR system is usually incapable of considering all these variabilities. We propose to use various sources of acoustic information in order to increase precision and robustness.

Combination of various acoustic feature sets is motivated by the assumption that some characteristics that are de-emphasized by a particular feature set are emphasized by another. Therefore, the goal is to make the most of their strengths. In addition, acoustic models make different partition of the acoustic space so that they can be used in a combination scheme relying on their complementarity.

Diagnosis is at the core of this research. Performance analysis of each feature set brings out specific contexts where the prediction of the recognition result is possible. We propose a diagnosis architecture in which the ASR system is shown as a "channel model" which takes as input the phonemes present in the speech signal and outputs phoneme hypotheses given by the system. This architecture allows different sources of confusion to be separated within the recognition system. The performed analyses enable the introduction of post-decoding combination strategies at a high segmental level (word or phoneme).

Combination of a posteriori probabilities of states of a Hidden Markov Model (HMM) given a feature frame is also proposed. In order to better estimate such a posteriori probabilities, probabilities obtained with several acoustic models are fused. For the sake of consistency, the topology of the acoustic models has to be equivalent. In consequence, we propose a new fast, efficient protocol to train models having the same topology but using different acoustic feature sets. Several methods to estimate weighting factors and to generate complementary acoustic models for combination are also suggested.

La Reconnaissance Automatique de la Parole (RAP) est affectée par les nombreuses variabilités présentes dans le signal de parole.
En dépit de l'utilisation de techniques sophistiquées, un système RAP seul n'est généralement pas en mesure de prendre en compte l'ensemble de ces variabilités. Nous proposons l'utilisation de diverses sources d'information acoustique pour augmenter la précision et la robustesse des systèmes.

La combinaison de différents jeux de paramètres acoustiques repose sur l'idée que certaines caractéristiques du signal de parole sont davantage mises en avant par certains jeux de paramètres que par d'autres.
L'intérêt est donc d'exploiter les points forts de chacun.
Par ailleurs, les différentes partitions de l'espace acoustique opérées par les modèles acoustiques peuvent être mises à profit dans des techniques de combinaison bénéficiant de leur complémentarité.

Le diagnostic est au coeur de ce travail. L'analyse des performances de chaque jeu de paramètres permet de dégager des contextes spécifiques dans lesquels la prédiction du résultat de reconnaissance est possible. Nous présentons une architecture de diagnostic dans laquelle le système RAP est vu comme un "canal de transmission" dont l'entrée correspond aux phonèmes et la sortie au résultat de reconnaissance. Cette architecture permet de séparer les sources d'ambiguïté au sein du système de reconnaissance. Les analyses ont permis d'intégrer des stratégies de combinaison post-décodage à un niveau segmental élevé (phonème ou mot).

Des techniques de combinaison des probabilités a posteriori des états d'un modèle de Markov caché au niveau de la trame sont également proposées. Afin d'améliorer l'estimation de ces probabilités, les probabilités obtenues avec différents modèles acoustiques sont fusionnées.
Pour combiner les probabilités de manière cohérente, nous avons développé un protocole permettant d'entraîner des modèles de même topologie avec des paramètres acoustiques différents.

Diagnosis for the combination of automatic speech recognition systems

Diagnostic pour la combinaison de systèmes de reconnaissance automatique de la parole.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager