Les collections volumineuses de documents audiovisuels : segmentation et regroupement en locuteurs

Résumé : La tâche de Segmentation et Regroupement en Locuteurs (SRL), telle que définie par le NIST, considère le traitement des enregistrements d’un corpus comme des problèmes indépendants. Les enregistrements sont traités séparément, et le tauxd’erreur global sur le corpus correspond finalement à une moyenne pondérée. Dans ce contexte, les locuteurs détectés par le système sont identifiés par des étiquettes anonymes propres à chaque enregistrement. Un même locuteur qui interviendrait dans plusieurs enregistrements sera donc identifié par des étiquettes différentes selon les enregistrements. Cette situation est pourtant très fréquente dans les émissions journalistiques d’information : les présentateurs, les journalistes et autres invités qui animent une émission interviennent généralement de manière récurrente. En conséquence, la tâche de SRL a depuis peu été considérée dans un contexte plus large, où les locuteurs récurrents doivent être identifiés de manière unique dans tous les enregistrements qui composent un corpus. Cette généralisation du problème de regroupement en locuteurs va de pair avec l’émergence du concept de collection, qui se réfère, dans le cadre de la SRL, à un ensemble d’enregistrements ayant une ou plusieurs caractéristiques communes. Le travail proposé dans cette thèse concerne le regroupement en locuteurs sur des collections de documents audiovisuels volumineuses (plusieurs dizaines d’heures d’enregistrements). L’objectif principal est de proposer (ou adapter) des approches de regroupement afin de traiter efficacement de gros volumes de données, tout en détectant les locuteurs récurrents. L’efficacité des approches proposées est étudiée sous deux aspects : d’une part, la qualité des segmentations produites (en termes de taux d’erreur), et d’autre part, la durée nécessaire pour effectuer les traitements. Nous proposons à cet effet deux architectures adaptées au regroupement en locuteurs sur des collections de documents. Nous proposons une approche de simplification où le problème de regroupement est représenté par une graphe non-orienté. La décompositionde ce graphe en composantes connexes permet de décomposer le problème de regroupement en un certain nombre de sous-problèmes indépendants. La résolution de ces sous-problèmes de regroupement est expérimentée avec deux approches de regroupements différentes (HAC et ILP) tirant parti des récentes avancées en modélisation du locuteur (i-vector et PLDA).
Type de document :
Thèse
Informatique et langage [cs.CL]. Université du Maine, 2015. Français. 〈NNT : 2015LEMA1006〉
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-01259649
Contributeur : Abes Star <>
Soumis le : mercredi 20 janvier 2016 - 17:23:05
Dernière modification le : mardi 19 décembre 2017 - 03:11:52
Document(s) archivé(s) le : jeudi 21 avril 2016 - 11:17:06

Fichier

2015LEMA1006.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01259649, version 1

Collections

Citation

Grégor Dupuy. Les collections volumineuses de documents audiovisuels : segmentation et regroupement en locuteurs. Informatique et langage [cs.CL]. Université du Maine, 2015. Français. 〈NNT : 2015LEMA1006〉. 〈tel-01259649〉

Partager

Métriques

Consultations de la notice

377

Téléchargements de fichiers

263