La bimodalité de la parole au secours de la séparation de sources

Bertrand Rivet

Thèse Année : 2006

The bimodality of speech as a help to source separation

La bimodalité de la parole au secours de la séparation de sources

(1)

Bertrand Rivet

Fonction : Auteur
PersonId : 1783
IdHAL : rivetb
ORCID : 0000-0003-4901-5302
IdRef : 113674422

Institut de la communication parlée

Résumé

This thesis is dedicated to both the joint modeling of the audio and visual modalities of speech and its use in source separation. A mixture of kernels is first proposed to model the bi-modality of audiovisual speech. This modeling is then exploited to detect the silence phases of speech. Moreover, we propose a purely visual detection of silence based on the lip movements of the speaker. The later detection is robust to any acoustic environment. These two modelings are then exploited in source separation of convolutive mixtures. We first solve the classical indeterminacies encountered by frequency domain separation algorithms. We then propose a geometric separation which exploits the silence of the source of interest. The proposed algorithms are validated by experiments on multi-speakers and multi-languages databases.

Cette thèse est dédiée à la modélisation conjointe des modalités audio et vidéo de la parole et à son exploitation pour la séparation de sources. Tout d'abord, une modélisation probabiliste bimodale de la parole audiovisuelle à base de mélange de noyaux est proposée. Cette modélisation est ensuite exploitée pour la détection des silences. De plus, nous proposons une détection purement visuelle des silences en s'appuyant sur l'observation des lèvres du locuteur. Ce dernier procédé présente l'avantage d'être indépendant d'un bruit acoustique. Ces deux modélisations sont ensuite exploitées pour la séparation de mélanges convolutifs de sources audiovisuelles. Nous résolvons ainsi le problème classique des indéterminations des méthodes de séparation dans le domaine fréquentiel avant de proposer une méthode géométrique qui utilise les périodes de silence de la source d'intérêt. Les algorithmes proposés sont validés par des expériences sur des corpus multi-locuteurs et multi-langues.

Mots clés

blind source separation bimodality of speech modelisation voice activity detection visual voice activity detection convolutive mixtures

séparation de sources modélisation de la bimodalité de la parole détection d'activité vocale détection visuelle d'activité vocale mélanges convolutifs

Domaines

Traitement du signal et de l'image [eess.SP]

Fichier principal

RivetThese.pdf (28.84 Mo)

Bertrand Rivet : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00200871

Soumis le : vendredi 21 décembre 2007-16:57:39

Dernière modification le : jeudi 4 avril 2024-21:01:52

Archivage à long terme le : mardi 13 avril 2010-15:02:31

Dates et versions

tel-00200871 , version 1 (21-12-2007)

Identifiants

HAL Id : tel-00200871 , version 1

Citer

Bertrand Rivet. La bimodalité de la parole au secours de la séparation de sources. Traitement du signal et de l'image [eess.SP]. Institut National Polytechnique de Grenoble - INPG, 2006. Français. ⟨NNT : ⟩. ⟨tel-00200871⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS ICP LIS-THESE ICP-THESE

256 Consultations

114 Téléchargements

The bimodality of speech as a help to source separation

La bimodalité de la parole au secours de la séparation de sources

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager