Modeling of Convolutive Audio Mixtures Applied to Source Separation

Ngoc Q.K. Duong

Résumé

We consider the task of under-determined and determined reverberant audio source separation, that is the extraction of the signal of each source from a multichannel audio mixture. We propose a general Gaussian modeling framework whereby the contribution of each source to all mixture channels in the time-frequency domain is modeled as a zero-mean Gaussian random variable whose covariance encodes both the spatial and the spectral characteristics of the source. In order to better account for the reverberant mixing process, we relax the conventional narrowband assumption resulting in rank-1 spatial covariance and compute the upper bound on the separation performance achievable with full-rank spatial covariance. Experimental results indicate an improvement of up to 6 dB Signal-to-Distortion Ratio (SDR) in moderate to high reverberant conditions which supports this generalization. We also consider the use of quadratic time-frequency representations and that of the auditory-motivated equivalent rectangular bandwidth (ERB) frequency scale to increase the amount of exploitable information and decrease the overlap between the sources in the input representation. After this theoretical validation of the proposed framework, we focus on estimating the model parameters from a given mixture signal in a practical blind source separation scenario. We derive a family of Expectation-Maximization (EM) algorithms to estimate the parameters either in the maximum likelihood (ML) sense or in the maximum a posteriori (MAP) sense. We propose a family of spatial location priors inspired by the theory of room acoustics as well as a spatial continuity prior and investigate the use of two spectral priors previously used in a single-channel or rank-1 multichannel context, namely spectral continuity and Nonnegative Matrix Factorization (NMF). The source separation results given by the proposed approach are compared with several baseline and state-of-the-art algorithms on both simulated mixtures and real-world recordings in various scenarios.

Nous considérons le problème de la séparation de mélanges audio réverbérants déterminés et sous-déterminés, c'est-à-dire l'extraction du signal de chaque source dans un mélange multicanal. Nous proposons un cadre général de modélisation gaussienne où la contribution de chaque source aux canaux du mélange dans le domaine temps-fréquence est modélisée par un vecteur aléatoire gaussien de moyenne nulle dont la covariance encode à la fois les caractéristiques spatiales et spectrales de la source. Afin de mieux modéliser la réverbération, nous nous affranchissons de l'hypothèse classique de bande étroite menant à une covariance spatiale de rang 1 et nous calculons la borne théorique de performance atteignable avec une covariance spatiale de rang plein. Les résultats expérimentaux indiquent une ugmentation du rapport Signal-à-Distorsion (SDR) de 6 dB dans un environnement faiblement à très réverbérant, ce qui valide cette généralisation. Nous considérons aussi l'utilisation de représentations temps-fréquence quadratiques et de l'échelle fréquentielle auditive ERB (equivalent rectangular bandwidth) pour accroître la quantité d'information exploitable et décroître le recouvrement entre les sources dans la représentation temps-fréquence. Après cette validation théorique du cadre proposé, nous nous focalisons sur l'estimation des paramètres du modèle à partir d'un signal de mélange donné dans un scénario pratique de séparation aveugle de sources. Nous proposons une famille d'algorithmes Expectation-Maximization (EM) pour estimer les paramètres au sens du maximum de vraisemblance (ML) ou du maximum a posteriori (MAP). Nous proposons une famille d'a priori de position spatiale inspirée par la théorie de l'acoustique des salles ainsi qu'un a priori de continuité spatiale. Nous étudions aussi l'utilisation de deux a priori spectraux précédemment utilisés dans un contexte monocanal ou multicanal de rang 1: un \textit{a priori} de continuité spatiale et un modèle de factorisation matricielle positive (NMF). Les résultats de séparation de sources obtenus par l'approche proposée sont comparés à plusieurs algorithmes de base et de l'état de l'art sur des mélanges simulés et sur des enregistrements réels dans des scénarios variés.

Modeling of Convolutive Audio Mixtures Applied to Source Separation

Modélisation gaussienne de rang plein des mélanges audio convolutifs appliquée à la séparation de sources

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager