Study on the variational models and dictionary learning

Tieyong Zeng

Résumé

This dissertation is dedicated to the use of dictionaries in the image analysis and image restoration. We are interested in various mathematical and practical aspects of this kind of methods: modeling, analysis the solution to such model, numerical analysis, dictionary learning and experimentation. After Chapter \ref{ch:intro}, which reviews the most significant works of this field, we present in Chapter \ref{ch:genral} the implementation and results which we obtained with the model consisting in solving \begin{equation}\label{tv-infen} \left\{\begin{array}{l} \min_{w} TV(w), \\ \mbox{subject to } |\PS{w-v}{\psi}|\leq \tau, \forall \psi \in \DD \end{array}\right. \end{equation} for $v\in\RRN$, an initial image, $\tau>0$, $TV (\cdot)$ the total variation and a {\em translation invariant} dictionary $\DD$. Actually, the dictionary, is built as all the translations of a collection $\FF$ of elements of $\RRN$ (of features or of the patches). The implementation of this model with this kind of dictionary is new. (The authors before this dissertation only considered the dictionaries of wavelet basis/packets or curvelets.) The flexibility of the construction of the dictionary leads to several experiments which we report in chapter \ref{ch:genral} and \ref{ch:knowfeathers}. The experiments of Chapter \ref{ch:genral} confirm that, to obtain good results of denoising with the above model, the dictionary must represent the curvature of textures well. Hence, when one uses Gabor dictionary, it is better to use Gabor filters whose support is isotropic (or almost isotropic). Indeed, for represent the curvature of a texture with a given frequency and living on a support $\Omega$, it is necessary that the support, in space, of Gabor filters allows a “paving” with few elements of support $\Omega$. Insofar as, for a general class images, the support $\Omega$ is independent of the frequency of the texture, it is most reasonable to choose Gaobr filters whose support is isotropic. This is a strong argument in favor of the wavelet packets, which allow in addition to having several sizes of supports in space (for a given frequency) and for which \eqref{tv-infen} can be solved quickly. %%%%%%%%%%%%%%% In Chapter \ref{ch:knowfeathers}, we present the experiments in which the dictionary contains the curvatures of known forms (letters). The data-fidelity term of the model \eqref{tv-infen} authorizes the appearance in the residue $w^*-v$ of all the structures, except forms being used to build the dictionary. Thus, we can expect that these forms remain in the result $w^*$ and that the other structures will disappear. Our experiments are carried on a problem of sources separation and confirm this impression. The starting image contains letters (known) on a very structured background (an image). We show that it is possible, with \eqref{tv-infen}, to obtain a reasonable separation of these structures. Finally this work illustrates clearly that the dictionary $\DD$ must contain the {\em curvature} of elements which we seek to preserve and not the elements themselves, as we might think this naively. % Chapter \ref{ch:k-svd} presents a work in which we try to integrate the K-SVD method with the model \eqref{tv-infen}. Our starting idea is to use the fact that some iterations of the algorithm which we use to solve \eqref{tv-infen} allow to reappear the lost structures from the image which we used as the initialization of the algorithm (and whose curvature is present in dictionary). We thus apply some of these iterations to the result of K-SVD and recover lost textures well. This allows a gain of visual and in PSNR. In Chapter \ref{primaldualbasispursuit}, we expose a numerical schema to solve a variant of Basis Pursuit. This consists to apply a proximal point algorithm to this model. The interest is to transform a non-differentiable convex problem to a sequence (quickly converging) of very regular convex problem. We show the theoretical convergence of the algorithm. This one is confirmed by the experiment. This algorithm allows to improve remarkably the quality (in term of sparseness) of the solution compared to the state-of-the-art concerning the practical resolution of Basis Pursuit. This algorithm should have a consequent impact in this rapidly developing field. In chapter \ref{ch:sparseandmpthresholding}, we adapt to the cases of a variational model, whose regularization term is that of Basis Pursuit and whose data-fidelity term is that of the model \eqref{tv-infen}, a result of D. Donoho (see [55]). This result shows that, under a condition relating the dictionary defining the regularization term to the dictionary defining the data-fidelity term, it is possible to extend the results of D. Donoho to the models which interest us in this chapter. The obtained result says that, if the given data is very sparse, the solution of the model is close to its most sparse decomposition. This guarantee the stability of this model within this framework and establishes a link between $l^1$ and $l^0$ regularization, for this type of data-fidelity term. Chapter \ref{ch:mpshrinkage} contains the study of a variant of Matching Pursuit. In this variant, we proposes to reduce the scalar product with the element best correlated with the residue, before modifying the residue. This is for a general threshold function. By using simple properties of these threshold functions, we show that the algorithm thus obtained converges towards the orthogonal projection of the data on linear space generated by the dictionary (the whole modulo an approximation quantified by the characteristics of the threshold function). Finally, under a weak assumption on the threshold function (for example the hard-threshold satisfies this assumption), this algorithm converges in a finite time which one can deduce from the properties of the threshold function. Typically, this algorithm might be useful to make the orthogonal projections in the algorithm “Orthogonal Matching Pursuit”. This we have not done yet. Chapter \ref{ch:mcmc} explores finally the dictionary learning problem. The developed point of view is to regard this problem as a parameter estimation problem in a family of additive generative models. The introduction of random on/off switches of Bernoulli activating or deactivating each element of a translation invariant dictionary to be estimated allows the identification under rather general conditions in particular if the coefficients are Gaussian. By using an EM variational technic and the approximation of the posteriori distribution by mean field, we derive from a estimation principle by maximum likelihood a new effective algorithm of dictionary learning which one can connect for certain aspects with algorithm K-SVD. The experimental results on synthetic data illustrate the possibility of a correct identification of a source dictionary and several applications in image decomposition and image denoising.

Ce mémoire porte sur l'utilisation de dictionnaires en analyse et restauration d'images numériques. Nous nous sommes intéressés aux différents aspects mathématiques et pratiques de ce genre de méthodes: modélisation, analyse de propriétés de la solution d'un modèle, analyse numérique, apprentissage du dictionnaire et expérimentation. Après le Chapitre 1, qui retrace les étapes les plus significatives de ce domaine, nous présentons dans le Chapitre 2 notre implémentation et les résultats que nous avons obtenus avec le modèle consistant à résoudre \begin{equation}\label{tv-inf} \left\{\begin{array}{l} \min_{w} TV(w), \\ \mbox{sous les contraintes } |\PS{w-v}{\psi}|\leq \tau, \forall \psi \in \DD \end{array}\right. \end{equation} pour $v\in\RRN$, une donnée initiale, $\tau>0$, $TV(\cdot)$ la variation totale et un dictionnaire {\em invariant par translation} $\DD$. Le dictionnaire est, en effet, construit comme toutes les translations d'un ensemble $\FF$ d'éléments de $\RRN$ (des caractéristiques ou des patchs). L'implémentation de ce modèle avec ce genre de dictionnaire est nouvelle. (Les auteurs avaient jusque là considéré des dictionnaires de paquets d'ondelettes ou de curvelets.) La souplesse de la construction du dictionnaire a permis de conduire plusieurs expériences dont les enseignements sont rapportés dans les Chapitre 2 et 3. Les expériences du Chapitre 2 confirment que, pour obtenir de bons résultats en débruitage avec le modèle ci-dessus, le dictionnaire doit bien représenter la courbure des textures. Ainsi, lorsque l'on utilise un dictionnaire de Gabor, il vaut mieux utiliser des filtres de Gabor dont le support est isotrope (ou presque isotrope). En effet, pour représenter la courbure d'une texture ayant une fréquence donnée et vivant sur un support $\Omega$, il faut que le support, en espace, des filtres de Gabor permette un ``pavage'' avec peu d'éléments du support $\Omega$. Dans la mesure o\`{u}, pour une classe générale d'images, le support $\Omega$ est indépendant de la fréquence de la texture, le plus raisonnable est bien de choisir des filtres de Gabor dont le support est isotrope. Ceci est un argument fort en faveur des paquets d'ondelettes, qui permettent en plus d'avoir plusieurs tailles de supports en espace (pour une fréquence donnée) et pour lesquelles \eqref{tv-inf} peut être résolu rapidement. Dans le Chapitre 3 nous présentons des expériences dans lesquels le dictionnaire contient les courbures de formes connues (des lettres). Le terme d'attache aux données du modèle \eqref{tv-inf} autorise l'apparition dans le résidu $w^*-v$ de toutes les structures, sauf des formes ayant servi à construire le dictionnaire. Ainsi, on s'attend à ce que les forment restent dans le résultat $w^*$ et que les autres structures en soient absente. Nos expériences portent sur un problème de séparation de sources et confirment cette impression. L'image de départ contient des lettres (connues) sur un fond très structuré (une image). Nous montrons qu'il est possible, avec \eqref{tv-inf}, d'obtenir une séparation raisonnable de ces structures. Enfin ce travail met bien en évidence que le dictionnaire $\DD$ doit contenir la {\em courbure} des éléments que l'on cherche à préserver et non pas les éléments eux-mêmes, comme on pourrait le penser na\"{\i}vement. Le Chapitre 4 présente un travail dans lequel nous avons cherché à faire collaborer la méthode K-SVD avec le modèle \eqref{tv-inf}. Notre idée de départ est d'utiliser le fait que quelques itérations de l'algorithme qu'il utilise pour résoudre \eqref{tv-inf} permettent de faire réapparaître des structures absentes de l'image servant à l'initialisation de l'algorithme (et dont la courbure est présente dans le dictionnaire). Nous appliquons donc quelques une de ces itérations au résultat de K-SVD et retrouvons bien les textures perdues. Ceci permet un gain visuel et en PSNR. Dans le Chapitre 5, nous exposons un schéma numérique pour résoudre une variante du Basis Pursuit. Celle-ci consiste à appliquer un algorithme du point proximal à ce modèle. L'intérêt est de transformer un problème convexe non-différentiable en une suite (convergeant rapidement) de problèmes convexes très réguliers. Nous montrons la convergence théorique de l'algorithme. Celle-ci est confirmée par l'expérience. Cet algorithme permet d'améliorer considérablement la qualité (en terme de parcimonie) de la solution par rapport à l'état de l'art concernant la résolution pratique du Basis Pursuit. Nous nous espérons que cet algorithme devrait avoir un impact conséquent dans ce domaine en rapide développement. Dans le Chapitre 6, nous adapte aux cas d'un modèle variationnel, dont le terme régularisant est celui du Basis Pursuit et dont le terme d'attache aux données est celui du modèle \eqref{tv-inf}, un résultat de D. Donoho (voir [55]). Ce résultat montre que, sous une condition liant le dictionnaire définissant le terme régularisant au dictionnaire définissant le terme d'attache aux données, il est possible d'étendre les résultats de D. Donoho aux modèles qui nous intéressent dans ce chapitre. Le résultat obtenu dit que, si la donnée initiale est très parcimonieuse, la solution du modèle est proche de sa décomposition la plus parcimonieuse. Ceci garantie la stabilité du modèle dans ce cadre et fait un lien entre régularisation $l^1$ et $l^0$, pour ce type d'attache aux données. Le Chapitre 7 contient l'étude d'une variante du Matching Pursuit. Dans cette variante, nous proposons de réduire le produit scalaire avec l'élément le mieux corrélé au résidu, avant de modifier le résidu. Ceci pour une fonction de seuillage général. En utilisant des propriétés simples de ces fonctions de seuillage, nons montrons que l'algorithme ainsi obtenu converge vers la projection orthogonale de la donnée sur l'espace linéaire engendré par le dictionnaire (le tout modulo une approximation quantifiée par les caractéristiques de la fonction de seuillage). Enfin, sous une hypothèse faible sur la fonction de seuillage (par exemple le seuillage dur la satisfait), cet algorithme converge en un temps fini que l'on peut déduire des propriétés de la fonction de seuillage. Typiquement, cet algorithme peut-être utilisé pour faire les projections orthogonales dans l'algorithme ``Orthogonal Matching Pursuit''. Ceci nous n'avons pas encore été fait. Le Chapitre 8 explore enfin la problématique de l'apprentissage de dictionnaires. Le point de vue développé est de considerer cette problématique comme un problème d'estimation de paramètres dans une famille de modèles génératifs additifs. L'introduction de switchs aléatoires de Bernoulli activant ou désactivant chaque élément d'un dictionnaire invariant par translation à estimer en permet l'identification dans des conditions assez générales en particulier dans le cas o\`{u} les coefficients sont gaussiens. En utilisant une technique d'EM variationel et d'approximation de la loi a posteriori par champ moyen, nous dérivons d'un principe d'estimation par maximum de vraisemblance un nouvel algorithme effectif d'apprentissage de dictionaire que l'on peut apparenter pour certains aspects à l'algorithme K-SVD. Les résultats expérimentaux sur données synthétiques illustrent la possibilité d'une identification correcte d'un dictionaire source et de plusieurs applications en décomposition d'images et en débruitage.

Study on the variational models and dictionary learning

Études de Modèles Variationnels et Apprentissage de Dictionnaires

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager