Skip to Main content Skip to Navigation
Theses

Efficient speaker diarization and low-latency speaker spotting

Résumé : La segmentation et le regroupement en locuteurs (SRL) impliquent la détection des locuteurs dans un flux audio et les intervalles pendant lesquels chaque locuteur est actif, c'est-à-dire la détermination de ‘qui parle quand’. La première partie des travaux présentés dans cette thèse exploite une approche de modélisation du locuteur utilisant des clés binaires (BKs) comme solution à la SRL. La modélisation BK est efficace et fonctionne sans données d'entraînement externes, car elle utilise uniquement des données de test. Les contributions présentées incluent l'extraction des BKs basée sur l'analyse spectrale multi-résolution, la détection explicite des changements de locuteurs utilisant les BKs, ainsi que les techniques de fusion SRL qui combinent les avantages des BKs et des solutions basées sur un apprentissage approfondi. La tâche de la SRL est étroitement liée à celle de la reconnaissance ou de la détection du locuteur, qui consiste à comparer deux segments de parole et à déterminer s'ils ont été prononcés par le même locuteur ou non. Même si de nombreuses applications pratiques nécessitent leur combinaison, les deux tâches sont traditionnellement exécutées indépendamment l'une de l'autre. La deuxième partie de cette thèse porte sur une application où les solutions de SRL et de reconnaissance des locuteurs sont réunies. La nouvelle tâche, appelée détection de locuteurs à faible latence, consiste à détecter rapidement les locuteurs connus dans des flux audio à locuteurs multiples. Il s'agit de repenser la SRL en ligne et la manière dont les sous-systèmes de SRL et de détection devraient être combinés au mieux.
Complete list of metadatas

Cited literature [282 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02458517
Contributor : Abes Star :  Contact
Submitted on : Tuesday, January 28, 2020 - 5:46:11 PM
Last modification on : Monday, February 17, 2020 - 3:28:43 PM
Document(s) archivé(s) le : Wednesday, April 29, 2020 - 4:46:42 PM

File

PATINO_VILLAR_Jose_Maria_2019....
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-02458517, version 1

Citation

José María Patino Villar. Efficient speaker diarization and low-latency speaker spotting. Signal and Image Processing. Sorbonne Université, 2019. English. ⟨NNT : 2019SORUS003⟩. ⟨tel-02458517⟩

Share

Metrics

Record views

346

Files downloads

155