Independent component analysis by wavelets

Résumé : L'analyse en composantes indépendantes (ACI) est une forme d'analyse multivariée qui a émergée en tant que concept dans les années 1980-90. C'est un type de problème inverse où on observe une variable X dont les composantes sont les mélanges linéaires d'une variable S inobservable. Les composantes de S sont mutuellement indépendantes. La relation entre les deux variables s'exprime par X=AS, où A est une matrice de mixage inconnue .

Le problème principal de l'ACI est d'estimer la matrice A, à partir de l'observation d'un échantillon i.i.d. de X, pour atteindre S qui constitue un système explicatif meilleur que X dans l'étude d'un phénomène particulier. Le problème se résout généralement par la minimisation d'un certain critère, issu d'une mesure de dépendance.

L'ACI ressemble à l'analyse en composantes principales (ACP) dans la formulation du problème. Dans le cas de l'ACP on cherche des composantes non corrélées, c'est-à-dire indépendantes par paire à l'ordre 2 ; dans le cas de l'ACI on cherche des composantes mutuellement indépendantes, ce qui est beaucoup plus contraignant; dans le cas général, il n'existe plus de solution algébrique simple. Les principaux problèmes d'identification de A sont évités par un certain nombre de conventions adoptées dans le modèle ACI classique.

L'approche qui est proposée dans cette thèse est du type non paramétrique. Sous des hypothèses de type Besov, on étudie plusieurs estimateurs d'un critère de dépendance exact donné par la norme L2 de la différence entre une densité et le produit de ses marges. Ce critère constitue une alternative à l'information mutuelle qui représentait jusqu'ici le critère exact de référence de la plupart des méthodes ACI.

On donne une majoration de l'erreur en moyenne quadratique de différents estimateurs du contraste L2. Cette majoration prend en compte le biais d'approximation entre le Besov et l'espace de projection qui, ici, est issu d'une analyse multirésolution (AMR) générée par le produit tensoriel d'ondelettes de Daubechies. Ce type de majoration avec prise en compte du biais d'approximation est en général absent des méthodes non paramétriques récentes en ACI (méthodes kernel, information mutuelle).

Le critère en norme L2 permet de se rapprocher de problèmes déjà connus dans la littérature statistique, estimation de l'intégrale de f au carré, tests d'homogénéité en norme L2, résultats de convergence d'estimateurs adoptant un seuillage par bloc.

On propose des estimateurs du contraste L2 qui atteignent la vitesse minimax optimale du problème de intégrale de f au carré. Ces estimateurs de type U-statistique ont des complexités numériques quadratique en n, ce qui peut poser un problème pour la minimisation du contraste à suivre, en vue d'obtenir l'estimation concrète de la matrice A. En revanche, ces estimateurs admettent une forme de seuillage par bloc où la connaissance de la régularité s de la densité multivariée sous-jacente est inutile pour obtenir une vitesse optimale.

On propose un estimateur de type plug-in dont la vitesse de convergence est sous-optimale mais qui est de complexité numérique linéaire en n. L'estimateur plug-in admet aussi une forme seuillée terme à terme, qui dégrade la vitesse de convergence mais permet d'obtenir un critère auto-adaptatif. Dans sa version linéaire, l'estimateur plug-in semble déjà quasiment auto-adaptatif dans les faits, c'est-à-dire que sous la contrainte 2^{jd} < n, où d est la dimension du problème et n le nombre d'observations, la majorité des résolutions j permettent d'estimer A après minimisation.

Pour obtenir ces résultats on a été amené à développer une technique combinatoire spécifique permettant de majorer le moment d'ordre r d'une U-statistique ou d'une V-statistique. Les résultats classiques sur les U-statistiques ne sont en effet pas directement utilisables et pas facilement adaptables dans le contexte d'étude de la thèse. La méthode développée est utilisable dans d'autres contextes.

La méthode par ondelettes s'appuie sur le paradigme usuel estimation d'un critère de dépendance, puis minimisation. On étudie donc dans la thèse les éléments permettant de faciliter la minimisation. On donne notamment des formulations du gradient et du hessien de l'estimateur du contraste qui se prêtent à un changement de résolution par simple filtrage et qui se calculent selon une complexité équivalente à celle de l'évaluation de l'estimateur lui même.

Des simulations proposées dans la thèse confirment l'applicabilité de la méthode et donnent des résultats excellents. Tous les éléments nécessaires à l'implémentation de la méthode, et le code commenté des parties clefs de la programmation (notamment des algorithmes d-dimensionnels) figurent également dans le document.
Type de document :
Thèse
Mathematics [math]. Université Paris-Diderot - Paris VII, 2006. English
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00119428
Contributeur : Pascal Barbedor <>
Soumis le : samedi 9 décembre 2006 - 16:08:27
Dernière modification le : jeudi 27 avril 2017 - 09:46:24
Document(s) archivé(s) le : mardi 6 avril 2010 - 20:45:55

Fichiers

Identifiants

  • HAL Id : tel-00119428, version 1

Collections

INSMI | UPMC | USPC | PMA

Citation

Pascal Barbedor. Independent component analysis by wavelets. Mathematics [math]. Université Paris-Diderot - Paris VII, 2006. English. 〈tel-00119428〉

Partager

Métriques

Consultations de
la notice

565

Téléchargements du document

536