Robustness of DNN-based speaker recognition systems against environmental variabilities

Mohammad Mohammadamini

Résumé

Speaker recognition systems authenticate the identity of speakers from their speech utterances. In order to authenticate the identity of a claimed user, it is required to obtain a fixed-length compact speaker-discriminant representation for variable-length speech utterances known as speaker embeddings. Despite the relative robustness of DNN-based speaker recognition systems, their performance degrades in the presence of acoustical variabilities such as additive noise and reverberation. This thesis focuses on the robustness of DNN-based text-independent speaker recognition systems against additive noise and reverberation. The first part of our work (Chapter 5) is on proposing several noise compensation DAEs that perform a transformation between pairs of distorted/clean speaker embeddings extracted by the TDNN system. The noise compensation modules are tested in the case of additive noise (unseen noises, specific noise), early reverberation, and late reverberation distortions. In this part, we proposed two configurations for compensating multiple distortions. In Chapter 6, the behavior of the ResNet speaker recognition system against noise and reverberation was explored and compared with the TDNN system. Also, we investigate the noise compensation on ResNet speaker embeddings in two cases: 1) compensation of artificial noise with artificial data, and 2) compensation of real noise with artificial data. The second case is the most desired scenario because it makes noise compensation affordable without having real data to train denoising techniques. The experimental results show that in the first scenario noise compensation gives significant improvement with TDNN while this improvement in ResNet is not significant. In most cases, the performance of ResNet without compensation is superior to TDNN with noise compensation. In Chapter 7, we move towards learning noise-robust speaker embedding extractors. We propose two ResNet-based speaker recognition systems that make the speaker embedding more robust against additive noise and reverberation. The goal of the proposed systems is to extract speaker embeddings in noisy environments that are close to their corresponding speaker embedding in a clean environment. The first proposed system learns the same distribution for both noisy and clean environments. The second proposed system shifts the noisy speaker embeddings towards the distribution of the best-obtained system in a clean environment. In different situations with real and artificial noises and reverberation conditions, the modified systems outperform the baseline ResNet system. Finally, We proposed a noise-robust self-supervised ResNet speaker recognition system based on the Barlow Twins loss function. The Barlow Twins objective function tries to optimize two criteria: First, it increases the similarity between two versions of the same signal (i.e. the clean and its augmented noisy version) to make the speaker embedding invariant to the acoustic noise. Second, it reduces the redundancy between the dimensions of the speaker embeddings which improves the overall quality of speaker embeddings.

Les systèmes de reconnaissance du locuteur ont pour objectif d'authentifier des locuteurs à partir de leurs énoncés vocaux. Afin d'authentifier un utilisateur revendiqué, il est nécessaire d'obtenir une représentation de chaque énoncé, sous la forme d'un vecteur de taille fixe, contenant l’information permettant la séparation des locuteurs. Malgré la robustesse relative des systèmes de reconnaissance de locuteurs basés sur des RNP, leurs performances se dégradent en présence de variabilités acoustiques telles que du bruit additif et de la réverbération. Cette thèse se concentre sur la robustesse, face aux bruits additifs et aux réverbérations, des systèmes de reconnaissances du locuteur indépendante du texte, basés sur les RNP. La première partie de notre travail (Chapitre 5) consiste à proposer plusieurs Auto-Encodeurs de Débruitage (AED) (Pile d'AED, AED Gaussien) pour compenser le bruit au niveau des embeddings. Ces systèmes effectuent la transformation entre des embeddings, extraits avec le système TDNN, bruités et leur version propre. Ces modules de compensation de bruit sont testés dans le cas de bruits additifs (bruits inconnues, bruits spécifiques), de distorsions de réverbération précoce et de réverbération tardive. Dans la Chapitre 6, le comportement des systèmes de reconnaissance de locuteur de type ResNet face au bruit et à la réverbération est étudié et comparé au système de type TDNN. Nous étudions également la compensation du bruit sur des embeddings extraits par ResNet dans deux cas : 1) la compensation d'un bruit artificiel avec des données artificielles et 2) la compensation d'un bruit réel avec des données artificielles. Le deuxième cas est le scénario le plus intéressant car il permet d'entraîner le système de débruitage sans disposer de données réelles. Les résultats expérimentaux montrent que dans le premier scénario, la compensation du bruit donne une amélioration significative pour des embeddings de type TDNN mais pas pour des embeddings de type ResNet. Dans la plupart des cas, les performances de ResNet sans compensation sont supérieures au TDNN avec compensation de bruit. Dans la Chapitre 7, se concentre sur l'apprentissage de systèmes d'extraction d'embeddings du locuteurs robustes au bruit. Nous proposons deux systèmes de reconnaissance du locuteur basés sur des ResNet qui rendent l'intégration du locuteur plus robuste contre le bruit additif et la réverbération. Le but des systèmes proposés est d’éviter la propagation du bruit du signal à l'embedding. De cette manière, les embeddings extraits dans des environnements bruités sont proches de leur version extraite dans un environnement non-bruité. Le premier système proposé apprend la même distribution pour les environnements bruyants et propres. La seconde propose un système qui impose aux embeddings de locuteurs pour environnement bruité de se déplacer vers la distribution du système le mieux obtenu dans l'environnement propre. Dans différentes situations avec des bruits réels et simulés et des conditions de réverbération, les systèmes modifiés surpassent le système ResNet de base. Dans la Chapitre 8, nous avons proposé un système de reconnaissance du locuteur, de type ResNet, auto-supervisé et robuste au bruit, basé sur la fonction de perte Barlow Twins. La fonction de coût de type Barlow Twins essaie d'optimiser deux critères. Premièrement, elle augmente la similarité entre deux versions du même signal (c'est-à-dire la version propre et sa version bruitée augmentée) pour rendre les embeddings invariants au bruit acoustique. Deuxièmement, elle réduit la redondance entre les dimensions des embeddings, ce qui améliore la qualité globale des embeddings de locuteurs.

Robustness of DNN-based speaker recognition systems against environmental variabilities

Robustesse des systèmes de reconnaissance de locuteurs basés sur DNN face aux variabilités de l'environnement

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager