Reconnaissance automatique du locuteur par des GMM à grande marge

Reda Jourani

Thèse Année : 2012

Speaker recognition using discriminative learning of Large Margin GMM

Reconnaissance automatique du locuteur par des GMM à grande marge

(1)

Reda Jourani

Fonction : Auteur
PersonId : 881619
IdRef : 165708018

Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio

Résumé

Most of state-of-the-art speaker recognition systems are based on Gaussian Mixture Models (GMM), trained using maximum likelihood estimation and maximum a posteriori (MAP) estimation. The generative training of the GMM does not however directly optimize the classification performance. For this reason, discriminative models, e.g., Support Vector Machines (SVM), have been an interesting alternative since they address directly the classification problem, and they lead to good performances. Recently a new discriminative approach for multiway classification has been proposed, the Large Margin Gaussian mixture models (LM-GMM). As in SVM, the parameters of LM-GMM are trained by solving a convex optimization problem. However they differ from SVM by using ellipsoids to model the classes directly in the input space, instead of half-spaces in an extended high-dimensional space. While LM-GMM have been used in speech recognition, they have not been used in speaker recognition (to the best of our knowledge). In this thesis, we propose simplified, fast and more efficient versions of LM-GMM which exploit the properties and characteristics of speaker recognition applications and systems, the LM-dGMM models. In our LM-dGMM modeling, each class is initially modeled by a GMM trained by MAP adaptation of a Universal Background Model (UBM) or directly initialized by the UBM. The models mean vectors are then re-estimated under some Large Margin constraints. We carried out experiments on full speaker recognition tasks under the NIST-SRE 2006 core condition. The experimental results are very satisfactory and show that our Large Margin modeling approach is very promising.

Depuis plusieurs dizaines d'années, la reconnaissance automatique du locuteur (RAL) fait l'objet de travaux de recherche entrepris par de nombreuses équipes dans le monde. La majorité des systèmes actuels sont basés sur l'utilisation des Modèles de Mélange de lois Gaussiennes (GMM) et/ou des modèles discriminants SVM, i.e., les machines à vecteurs de support. Nos travaux ont pour objectif général la proposition d'utiliser de nouveaux modèles GMM à grande marge pour la RAL qui soient une alternative aux modèles GMM génératifs classiques et à l'approche discriminante état de l'art GMM-SVM. Nous appelons ces modèles LM-dGMM pour Large Margin diagonal GMM. Nos modèles reposent sur une récente technique discriminante pour la séparation multi-classes, qui a été appliquée en reconnaissance de la parole. Exploitant les propriétés des systèmes GMM utilisés en RAL, nous présentons dans cette thèse des variantes d'algorithmes d'apprentissage discriminant des GMM minimisant une fonction de perte à grande marge. Des tests effectués sur les tâches de reconnaissance du locuteur de la campagne d'évaluation NIST-SRE 2006 démontrent l'intérêt de ces modèles en reconnaissance.

Mots clés

Discriminative learning Gaussian mixture models large margin training speaker recognition session variability modeling

Apprentissage discriminant Modèles de Mélange de lois Gaussiennes maximisation de la marge reconnaissance du locuteur compensation de la variabilité inter-sessions

Domaines

Traitement du signal et de l'image [eess.SP] Traitement du signal et de l'image [eess.SP]

Fichier principal

manuscrit-UPS.pdf (4.11 Mo)

Reda Jourani : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00807563

Soumis le : mercredi 3 avril 2013-19:58:58

Dernière modification le : jeudi 1 février 2024-15:27:57

Archivage à long terme le : jeudi 4 juillet 2013-04:12:15

Dates et versions

tel-00807563 , version 1 (03-04-2013)

Identifiants

HAL Id : tel-00807563 , version 1

Citer

Reda Jourani. Reconnaissance automatique du locuteur par des GMM à grande marge. Traitement du signal et de l'image [eess.SP]. Université Paul Sabatier - Toulouse III, 2012. Français. ⟨NNT : ⟩. ⟨tel-00807563⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS UT1-CAPITOLE IRIT IRIT-SAMOVA IRIT-SI TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

720 Consultations

2517 Téléchargements

Speaker recognition using discriminative learning of Large Margin GMM

Reconnaissance automatique du locuteur par des GMM à grande marge

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager