Modèles de mélange pour la séparation multicanale de sources sonores en milieu réverbérant

Simon Leglaive

Résumé

In this thesis we address the problem of audio source separation for multichannel mixtures recorded in a reverberant environment. Our work focuses on the under-determined case, that is, when the number of sources to be separated is greater than the number of channels in the mixture. In order to tackle such a problem, it is often useful to develop a parametric model that explains the observed data. In this thesis we adopt a probabilistic and hierarchical approach in which the modeling of the monophonic source signals is distinguished from that of the mixing process. The sources are characterized in a time-frequency domain in order to obtain a sparse representation, suitable for the development of a model because highlighting the specific structure of audio signals and particularly musical ones. We rely on a probabilistic modeling of the sources where their time-frequency coefficients are represented as latent random variables. Defining the source model then amounts to defining the prior joint distribution of these coefficients. The source models in this thesis are mainly based on the Gaussian and the Student’s t distributions. We will also use non-negative matrix factorization approaches. One advantage of this rank reduction technique is that the number of parameters to be estimated is reduced. The main contributions of this thesis concern the modeling of the mixture in the presence of reverberation. Such a mixture is naturally represented in the time domain by the convolution of the source signals with the room impulse responses which characterize the acoustic path between each source and each microphone. These responses are called mixing filters in the context of source separation. The latter are generally treated in the literature as deterministic parameters, that are only estimated from the observed data. It is known, however, that they correspond to room responses, so they have a very specific structure that could be used to guide their estimation. In a first part we consider a common approximation in the literature, which consists in approaching the temporal convolution by a simple multiplication in the short-time Fourier transform domain, under the hypothesis that the impulse response of the mixing filters is short. The mixture is then characterized by the frequency response of the filters. Based on geometrical room acoustics concepts, we model the direct path and the first echoes of the room response by an autoregressive process in the frequency domain. According to statistical room acoustics results, late reverberation is modeled as a Gaussian random process also in the frequency domain. We exploit the exponential temporal decay of late reverberation to obtain theoretical expressions of the autocovariance function and power spectral density of this process. We also propose an autoregressive moving average parametrization of these two quantities. Finally, we develop a source separation method based on an expectation-maximization algorithm which exploits priors on the mixing filters in order to perform maximum a posteriori estimation. In a second part, we wish to relax the short mixing filters assumption because it fundamentally limits the separation performance for highly reverberant mixtures. We propose to infer the time-frequency source coefficients from the time-domain mixture observations, using a variational method. This approach makes it possible to exactly represent the convolutive mixing process, in the time domain. Preliminary results obtained by assuming that the mixing filters are known show the robustness of this approach in the presence of high reverberation. We then develop a room impulse response model based on the Student’s t distribution. This distribution allows us to take into account the direct path and the first echoes which, from a statistical point of view, correspond to outliers with respect to the Gaussian reverberation model with exponentially decaying amplitude. Finally, we develop a source separation method based on a variational inference technique where the mixing filters are considered as latent random variables in the time domain. We also show that this approach allows us to adapt the time-frequency representation to each individual source in the mixture, especially in terms of resolution.

Cette thèse traite du problème de séparation de sources sonores pour les mélanges multicanaux enregistrés en milieu réverbérant. Nous focalisons nos travaux sur le cas sous-déterminé, c’est-à-dire lorsque le nombre de sources à séparer est supérieur au nombre de canaux du mélange. Afin d’aborder un tel problème, il est souvent utile de développer un modèle paramétrique permettant d’expliquer les données observées, c’est-à-dire le mélange. Nous adoptons dans cette thèse une approche probabiliste et hiérarchique où l’on distingue la modélisation des signaux sources monophoniques de celle du processus de mélange. Les sources sont caractérisées dans un domaine temps-fréquence afin d’obtenir une représentation parcimonieuse, propice au développement d’un modèle car mettant en évidence la structure spécifique des signaux audio et plus particulièrement musicaux. Nous mettons en œuvre une modélisation probabiliste des sources où leurs coefficients temps-fréquence sont représentés comme des variables aléatoires latentes. Définir le modèle de source revient alors à définir la distribution jointe a priori de ces coefficients. Les modèles employés dans cette thèse se basent principalement sur les distributions gaussienne et t de Student. Nous utiliserons de plus des approches par factorisation en matrices non-négatives. L’intérêt de cette technique de réduction de rang réside notamment dans le caractère sous-déterminé du problème, elle permet en effet de réduire le nombre de paramètres à estimer. Les principales contributions de cette thèse concernent la modélisation du mélange en présence de réverbération. Celui-ci est naturellement représenté dans le domaine temporel par la convolution des signaux sources avec les réponses impulsionnelles de salle qui caractérisent le chemin acoustique entre chaque source et chaque microphone. Ces réponses sont appelées filtres de mélange dans le contexte de la séparation de sources. Ces derniers sont généralement traités dans la littérature comme des paramètres déterministes estimés uniquement à partir des données observées. On sait cependant qu’ils correspondent à des réponses de salle, ils ont par conséquent une structure bien précise qu’il serait possible d’exploiter afin de guider leur estimation. Dans une première partie nous considérons une approximation fréquente dans la littérature, qui consiste à approcher la convolution temporelle par une simple multiplication dans le domaine de la transformée de Fourier à court-terme, sous une hypothèse de filtres de mélange à réponse impulsionnelle courte. Le mélange est alors caractérisé par la réponse en fréquence des filtres. A partir de concepts d’acoustique géométrique des salles nous modélisons le trajet direct et les premiers échos de la réponse de salle par un processus autorégressif en fréquence. Suivant des résultats d’acoustique statistique des salles, la réverbération tardive est modélisée comme un processus gaussien en fréquence. Nous exploitons la décroissance exponentielle de la réverbération tardive dans le domaine temporel pour obtenir des expressions théoriques de la fonction d’autocovariance et de la densité spectrale de puissance de ce processus. Nous proposons également une paramétrisation autorégressive à moyenne ajustée de ces quantités. Nous développons finalement une méthode de séparation de sources basée sur un algorithme espérance-maximisation et permettant d’exploiter ces modèles par l’intermédiaire d’a priori sur les filtres de mélange, dans le cadre d’une estimation au sens du maximum a posteriori. Dans une seconde partie nous souhaitons relâcher l’hypothèse de filtres de mélange courts car celle-ci limite fondamentalement les performances de séparation pour des mélanges fortement réverbérants. Nous proposons alors une méthode d’inférence variationnelle des coefficients temps-fréquence des sources à partir des observations temporelles du mélange. Cette approche permet de représenter de façon exacte le processus de mélange convolutif. Des résultats préliminaires obtenus en supposant la connaissance des filtres de mélange permettent de montrer la robustesse de cette approche en présence de forte réverbération. Nous développons ensuite un modèle de réponse impulsionnelle de salle basé sur la distribution t de Student. Celle-ci permet de prendre en compte le trajet direct et les premiers échos qui d’un point de vue statistique correspondent à des valeurs aberrantes par rapport au modèle de réverbération gaussien à amplitude exponentiellement décroissante. Nous développons finalement une méthode de séparation de sources basée sur une technique d’inférence variationnelle où les filtres de mélange sont considérés comme des variables aléatoires latentes dans le domaine temporel. Nous montrons également que cette approche permet d’avoir une représentation temps-fréquence adaptée à chaque source composant le mélange, notamment en terme de résolution.

Modeling reverberant mixtures for multichannel audio source separation

Modèles de mélange pour la séparation multicanale de sources sonores en milieu réverbérant

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager