Skip to Main content Skip to Navigation
Theses

Deep neural networks for source separation and noise-robust speech recognition

Aditya Arie Nugraha 1
1 MULTISPEECH - Speech Modeling for Facilitating Oral-Based Communication
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Résumé : Dans cette thèse, nous traitons le problème de la séparation de sources audio multicanale par réseaux de neurones profonds (deep neural networks, DNNs). Notre approche se base sur le cadre classique de séparation par algorithme espérance-maximisation (EM) basé sur un modèle gaussien multicanal, dans lequel les sources sont caractérisées par leurs spectres de puissance à court terme et leurs matrices de covariance spatiales. Nous explorons et optimisons l'usage des DNNs pour estimer ces paramètres spectraux et spatiaux. À partir des paramètres estimés, nous calculons un filtre de Wiener multicanal variant dans le temps pour séparer chaque source. Nous étudions en détail l'impact de plusieurs choix de conception pour les DNNs spectraux et spatiaux. Nous considérons plusieurs fonctions de coût, représentations temps-fréquence, architectures, et tailles d'ensembles d'apprentissage. Ces fonctions de coût incluent en particulier une nouvelle fonction liée à la tâche pour les DNNs spectraux: le rapport signal-à-distorsion. Nous présentons aussi une formule d'estimation pondérée des paramètres spatiaux, qui généralise la formulation EM exacte. Sur une tâche de séparation de voix chantée, nos systèmes sont remarquablement proches de la méthode de l'état de l'art actuel et améliorent le rapport source-interférence de 2 dB. Sur une tâche de rehaussement de la parole, nos systèmes surpassent la formation de voies GEV-BAN de l'état de l'art de 14%, 7% et 1% relatifs en terme d'amélioration du taux d'erreur sur les mots sur des données à 6, 4 et 2 canaux respectivement
Document type :
Theses
Complete list of metadatas

Cited literature [249 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-01684685
Contributor : Abes Star :  Contact
Submitted on : Monday, January 15, 2018 - 4:56:28 PM
Last modification on : Monday, May 4, 2020 - 11:39:45 AM
Document(s) archivé(s) le : Sunday, May 6, 2018 - 10:33:27 AM

File

DDOC_T_2017_0212_ADITYA_ARIE_N...
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-01684685, version 1

Citation

Aditya Arie Nugraha. Deep neural networks for source separation and noise-robust speech recognition. Signal and Image Processing. Université de Lorraine, 2017. English. ⟨NNT : 2017LORR0212⟩. ⟨tel-01684685⟩

Share

Metrics

Record views

750

Files downloads

4106