Efficient speaker diarization and low-latency speaker spotting

José María Patino Villar

Thèse Année : 2019

Efficient speaker diarization and low-latency speaker spotting

Segmentation et regroupement efficaces en locuteurs et détection des locuteurs à faible latence

(1)

José María Patino Villar

Fonction : Auteur
PersonId : 743667
IdHAL : jose-patino
ORCID : 0000-0001-7193-0721
IdRef : 241999308

Eurecom [Sophia Antipolis]

Résumé

Speaker diarization (SD) involves the detection of speakers within an audio stream and the intervals during which each speaker is active, i.e. the determination of ‘who spoken when’. The first part of the work presented in this thesis exploits an approach to speaker modelling involving binary keys (BKs) as a solution to SD. BK modelling is efficient and operates without external training data, as it operates using test data alone. The presented contributions include the extraction of BKs based on multi-resolution spectral analysis, the explicit detection of speaker changes using BKs, as well as SD fusion techniques that combine the benefits of both BK and deep learning based solutions. The SD task is closely linked to that of speaker recognition or detection, which involves the comparison of two speech segments and the determination of whether or not they were uttered by the same speaker. Even if many practical applications require their combination, the two tasks are traditionally tackled independently from each other. The second part of this thesis considers an application where SD and speaker recognition solutions are brought together. The new task, coined low latency speaker spotting (LLSS), involves the rapid detection of known speakers within multi-speaker audio streams. It involves the re-thinking of online diarization and the manner by which diarization and detection sub-systems should best be combined.

La segmentation et le regroupement en locuteurs (SRL) impliquent la détection des locuteurs dans un flux audio et les intervalles pendant lesquels chaque locuteur est actif, c'est-à-dire la détermination de ‘qui parle quand’. La première partie des travaux présentés dans cette thèse exploite une approche de modélisation du locuteur utilisant des clés binaires (BKs) comme solution à la SRL. La modélisation BK est efficace et fonctionne sans données d'entraînement externes, car elle utilise uniquement des données de test. Les contributions présentées incluent l'extraction des BKs basée sur l'analyse spectrale multi-résolution, la détection explicite des changements de locuteurs utilisant les BKs, ainsi que les techniques de fusion SRL qui combinent les avantages des BKs et des solutions basées sur un apprentissage approfondi. La tâche de la SRL est étroitement liée à celle de la reconnaissance ou de la détection du locuteur, qui consiste à comparer deux segments de parole et à déterminer s'ils ont été prononcés par le même locuteur ou non. Même si de nombreuses applications pratiques nécessitent leur combinaison, les deux tâches sont traditionnellement exécutées indépendamment l'une de l'autre. La deuxième partie de cette thèse porte sur une application où les solutions de SRL et de reconnaissance des locuteurs sont réunies. La nouvelle tâche, appelée détection de locuteurs à faible latence, consiste à détecter rapidement les locuteurs connus dans des flux audio à locuteurs multiples. Il s'agit de repenser la SRL en ligne et la manière dont les sous-systèmes de SRL et de détection devraient être combinés au mieux.

Mots clés

Automatic speaker verification Speaker diarization Voice biometrics Low latency Machine learning Deep learning

Apprentissage profond Faible latence Apprentissage automatique Biométrie vocale Segmentation et regroupement en locuteur Reconnaissance automatique du locuteur

Domaines

Traitement du signal et de l'image [eess.SP] Apprentissage [cs.LG] Traitement du signal et de l'image [eess.SP] Informatique et langage [cs.CL]

Fichier principal

PATINO_VILLAR_Jose_Maria_2019.pdf (13.36 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-02458517

Soumis le : mardi 28 janvier 2020-17:46:11

Dernière modification le : dimanche 26 juin 2022-09:45:05

Archivage à long terme le : mercredi 29 avril 2020-16:46:42

Dates et versions

tel-02458517 , version 1 (28-01-2020)

Identifiants

HAL Id : tel-02458517 , version 1

Citer

José María Patino Villar. Efficient speaker diarization and low-latency speaker spotting. Signal and Image Processing. Sorbonne Université, 2019. English. ⟨NNT : 2019SORUS003⟩. ⟨tel-02458517⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EURECOM STAR SORBONNE-UNIVERSITE THESES-SU SU-SCIENCES

401 Consultations

259 Téléchargements

Efficient speaker diarization and low-latency speaker spotting

Segmentation et regroupement efficaces en locuteurs et détection des locuteurs à faible latence

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager