Independent component analysis by wavelets

Pascal Barbedor

Résumé

Independent component analysis (ICA) is a form of multivariate analysis that emerged as a concept in the eighties/nineties. It is a type of inverse problem where one observes a variable X whose components are linear mixtures of an unobservable variable S. The components of S are mutually independent. The relation between both variables is expressed by X=AS, where A is an unknown mixing matrix.

The main problem in ICA is to estimate the matrix A, seeing an i.i.d. sample of X, to reach S which constitutes a better explicative system than X, in the study of some phenomena. The problem is generally resolved through the minimization of a criteria coming from some dependence measure.

ICA looks like principal component analysis (PCA) in the formulation. In PCA, one seeks after uncorrelated components, that is to say pairwise independent at order 2 ; as for ICA, one seeks after mutually independent components, which is much more constraining, and there is not any more a simple algebraic solution in the general case. The main problems in the identification of A are removed by restrictions imposed in the classical ICA model.

The approach which is proposed in this thesis adopts a non parametric point of view. Under Besov assumptions, we study several estimators of an exact dependence criteria given by the L2 norm between a density and the product of its marginals. This criteria constitutes an alternative to mutual information which represented so far the exact criteria of reference for the majority of ICA methods.

We give an upper bound of the mean squared error of different estimators of the L2 contrast. This bound takes into account the approximation bias between the Besov space and the projection space which, here, stems from a multiresolution analysis (MRA) generated by the tensorial product of Daubechies wavelets. This type of bound, taking into account the approximation bias, is generally absent from recent non parametric methods in ICA (kernel methods, mutual information).

The L2 norm criteria makes it possible to get closer to well-known problems in the statistical literature, estimation of integral of squared f, L2 norm homogeneity tests, convergence rates for estimators adopting block thresholding.

We propose estimators of the L2 contrast that reach the optimal minimax rate of the problem integral of squared f. These estimators, of U-statistic type, have numerical complexities quadratic in n, which can be a problem for the contrast minimization to follow, to obtain a concrete estimation of matrix A. However these estimators also admit a block-thresholded version, where knowledge of the regularity s of the underlying multivariate density is useless to obtain an optimal rate.

We propose a plug-in type estimator whose convergence rate is sub-optimal but with a numerical complexity linear in n. The plug-in estimator also admits a term by term thresholded version, which dampens the convergence rate but yields an adaptive criteria. In its linear version, the plug-in estimator already seems auto-adaptive in facts, that is to say under the constraint 2^{jd} < n, where d is the dimension of the problem and n the number of observations, the majority of resolutions j allow to estimate A after minimization.

To obtain these results, we had to develop specific combinatorial tools, that allow to bound the rth moment of a U-statistic or a V-statistic. Standard results on U-statistics are indeed not directly usable and not easily adaptable in the context of study of the thesis. The tools that were developed are usable in other contexts.

The wavelet method builds upon the usual paradigm, estimation of an independence criteria, then minimization. So we study in the thesis the elements useful for minimization. In particular we give filter aware formulations of the gradient and the hessian of the contrast estimator, that can be computed with a complexity equivalent to that of the estimator itself.

Simulations proposed in the thesis confirm the applicability of the method and give excellent results. All necessary information for the implementation of the method, and the commented code of key parts of the program (notably d-dimensional algorithms) also appear in the document.

L'analyse en composantes indépendantes (ACI) est une forme d'analyse multivariée qui a émergée en tant que concept dans les années 1980-90. C'est un type de problème inverse où on observe une variable X dont les composantes sont les mélanges linéaires d'une variable S inobservable. Les composantes de S sont mutuellement indépendantes. La relation entre les deux variables s'exprime par X=AS, où A est une matrice de mixage inconnue .

Le problème principal de l'ACI est d'estimer la matrice A, à partir de l'observation d'un échantillon i.i.d. de X, pour atteindre S qui constitue un système explicatif meilleur que X dans l'étude d'un phénomène particulier. Le problème se résout généralement par la minimisation d'un certain critère, issu d'une mesure de dépendance.

L'ACI ressemble à l'analyse en composantes principales (ACP) dans la formulation du problème. Dans le cas de l'ACP on cherche des composantes non corrélées, c'est-à-dire indépendantes par paire à l'ordre 2 ; dans le cas de l'ACI on cherche des composantes mutuellement indépendantes, ce qui est beaucoup plus contraignant; dans le cas général, il n'existe plus de solution algébrique simple. Les principaux problèmes d'identification de A sont évités par un certain nombre de conventions adoptées dans le modèle ACI classique.

L'approche qui est proposée dans cette thèse est du type non paramétrique. Sous des hypothèses de type Besov, on étudie plusieurs estimateurs d'un critère de dépendance exact donné par la norme L2 de la différence entre une densité et le produit de ses marges. Ce critère constitue une alternative à l'information mutuelle qui représentait jusqu'ici le critère exact de référence de la plupart des méthodes ACI.

On donne une majoration de l'erreur en moyenne quadratique de différents estimateurs du contraste L2. Cette majoration prend en compte le biais d'approximation entre le Besov et l'espace de projection qui, ici, est issu d'une analyse multirésolution (AMR) générée par le produit tensoriel d'ondelettes de Daubechies. Ce type de majoration avec prise en compte du biais d'approximation est en général absent des méthodes non paramétriques récentes en ACI (méthodes kernel, information mutuelle).

Le critère en norme L2 permet de se rapprocher de problèmes déjà connus dans la littérature statistique, estimation de l'intégrale de f au carré, tests d'homogénéité en norme L2, résultats de convergence d'estimateurs adoptant un seuillage par bloc.

On propose des estimateurs du contraste L2 qui atteignent la vitesse minimax optimale du problème de intégrale de f au carré. Ces estimateurs de type U-statistique ont des complexités numériques quadratique en n, ce qui peut poser un problème pour la minimisation du contraste à suivre, en vue d'obtenir l'estimation concrète de la matrice A. En revanche, ces estimateurs admettent une forme de seuillage par bloc où la connaissance de la régularité s de la densité multivariée sous-jacente est inutile pour obtenir une vitesse optimale.

On propose un estimateur de type plug-in dont la vitesse de convergence est sous-optimale mais qui est de complexité numérique linéaire en n. L'estimateur plug-in admet aussi une forme seuillée terme à terme, qui dégrade la vitesse de convergence mais permet d'obtenir un critère auto-adaptatif. Dans sa version linéaire, l'estimateur plug-in semble déjà quasiment auto-adaptatif dans les faits, c'est-à-dire que sous la contrainte 2^{jd} < n, où d est la dimension du problème et n le nombre d'observations, la majorité des résolutions j permettent d'estimer A après minimisation.

Pour obtenir ces résultats on a été amené à développer une technique combinatoire spécifique permettant de majorer le moment d'ordre r d'une U-statistique ou d'une V-statistique. Les résultats classiques sur les U-statistiques ne sont en effet pas directement utilisables et pas facilement adaptables dans le contexte d'étude de la thèse. La méthode développée est utilisable dans d'autres contextes.

La méthode par ondelettes s'appuie sur le paradigme usuel estimation d'un critère de dépendance, puis minimisation. On étudie donc dans la thèse les éléments permettant de faciliter la minimisation. On donne notamment des formulations du gradient et du hessien de l'estimateur du contraste qui se prêtent à un changement de résolution par simple filtrage et qui se calculent selon une complexité équivalente à celle de l'évaluation de l'estimateur lui même.

Des simulations proposées dans la thèse confirment l'applicabilité de la méthode et donnent des résultats excellents. Tous les éléments nécessaires à l'implémentation de la méthode, et le code commenté des parties clefs de la programmation (notamment des algorithmes d-dimensionnels) figurent également dans le document.

Independent component analysis by wavelets

Analyse en composantes indépendantes par ondelettes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager