Contributions to audio source separation and content description

Emmanuel Vincent 1
1 METISS - Speech and sound data modeling and processing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Les données audio occupent une position centrale dans notre vie, que ce soit pour la communication parlée, les vidéos personnelles, la radio et la télévision, la musique, le cinéma, les jeux vidéos ou les divertissements. Cela crée un ensemble de besoins applicatifs allant du rehaussement du signal à l'extraction d'information, en passant par la réditorialisation et la manipulation interactive des contenus. Les données audio réelles ont une structure complexe due à la superposition de plusieurs sources sonores et à la coexistence de plusieurs niveaux d'information. Par exemple, les enregistrements de parole incluent souvent des locuteurs simultanés ou du bruit de fond et ils portent des informations sur l'identité des locuteurs, la langue et le sujet de la discussion, le texte prononcé, l'intonation et l'environnement acoustique. Les enregistrements de musique sont aussi typiquement constitués de plusieurs instruments musicaux ou voix et ils contiennent des informations sur le compositeur, l'organisation temporelle des morceaux, la partition sous-jacente, l'interprétation et l'environnement acoustique. Lorsque j'ai commencé mes études de doctorat de 2001, la séparation des signaux sources dans un enregistrement était considérée comme l'un des grands défis vers l'application des techniques de traitement du signal audio initialement conçues pour des sources seules à des données réelles multi-sources. Les techniques de formation de voies fixe ou adaptative étaient déjà établies, mais elles demandaient un grand nombre de microphones rarement disponible en pratique. Les premières techniques de séparation aveugle de sources conçues pour un nombre plus faible de microphones venaient à peine d'être appliquées à l'audio. Onze ans plus tard, des progrès importants ont été faits et la séparation de sources est devenue un sujet mûr. Grâce en particulier à certaines des contributions listées dans ce document, l'équipe METISS a acquis une réputation de leader dans le domaine, démontrée par un nombre croissant de transferts technologiques visant à rehausser et remixer des signaux de parole et de voix dans divers cas d'usage. L'utilisation de la séparation de sources comme un pré-traitement pour la description de sources de parole ou de musique au sein d'un mélange soulève le défi supplémentaire de prendre en compte les distorsions non-linéaires sur les signaux sources estimés. Des méthodes robustes d'interfaçage de la séparation de sources, de l'extraction de descripteurs et de classification ont émergé dans les dix dernières années basées sur l'idée de propagation de l'incertitude. Ce sujet faisait partie de mon programme de recherche lorsque j'ai rejoint Inria en 2006 et il est actuellement en forte croissance en raison de l'omniprésence des applications vocales pour les appareils portables. Les méthodes actuelles n'ont cependant pas encore atteint la robustesse du système auditif humain, et la reconnaissance de la parole ou du locuteur dans des environnements réels avec du bruit non-stationnaire reste un problème très difficile. Par rapport aux deux défis ci-dessus, le traitement conjoint des différents niveaux d'information sous-jacents aux signaux audio a attiré un intérêt moindre à ce jour. Il demeure cependant un problème fondamental pour le traitement de la musique en particulier, où des tâches telles que la transcription de hauteurs polyphonique et l'identification d'accords sont typiquement effectuées indépendamment l'une de l'autre sans prendre en compte les fortes dépendances entre les informations de hauteur et d'harmonie. Mon travail s'est focalisé sur ces trois défis et il est basé en particulier sur les fondements théoriques de la modélisation et de l'estimation bayésienne d'une part et de la modélisation parcimonieuse et de l'optimisation convexe d'autre part. Ce document fournit une vue d'ensemble de mes contributions depuis la fin de mon doctorat selon quatre axes: le Chapitre 1 se focalise sur la formalisation et l'évaluation diagnostique de certains problèmes étudiés, le Chapitre 2 sur la modélisation linéaire des signaux audio et les algorithmes associés, le Chapitre 3 sur la modélisation de variance des signaux audio et les algorithmes associés, et le Chapitre 4 sur la description des contenus multi-sources et multi-niveaux. Le chapitre 5 résume les perspectives de recherche issues de ce travail.
Type de document :
HDR
Signal and Image processing. Université Rennes 1, 2012
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00758517
Contributeur : Emmanuel Vincent <>
Soumis le : mercredi 18 septembre 2013 - 15:07:12
Dernière modification le : mercredi 21 février 2018 - 01:22:57
Document(s) archivé(s) le : jeudi 6 avril 2017 - 22:05:11

Identifiants

  • HAL Id : tel-00758517, version 2

Collections

Citation

Emmanuel Vincent. Contributions to audio source separation and content description. Signal and Image processing. Université Rennes 1, 2012. 〈tel-00758517v2〉

Partager

Métriques

Consultations de la notice

764

Téléchargements de fichiers

479