Guiding neural networks for image colorization through user interactions - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2024

Guiding neural networks for image colorization through user interactions

Colorisation d'images avec réseaux de neurones guidés par l'intéraction humaine

Résumé

Colorization is the process of adding colors to grayscale images. It is an important task in the image-editing and animation community. Although automatic colorization methods exist, they often produce unsatisfying results due to artifacts such as color bleeding, inconsistency, unnatural colors, and the ill-posed nature of the problem. Manual intervention is often necessary to achieve the desired outcome. Consequently, there is a growing interest in automating the colorization process while allowing artists to transfer their own style and vision to the process. In this thesis, we investigate various interaction formats by guiding colors of specific areas of an image or transferring them from a reference image or object. As part of this research, we introduce two semi-automatic colorization frameworks. First, we describe a deep learning architecture for exemplar-based image colorization that takes into account user’s reference images. Our second framework uses a diffusion model to colorize line art using user-provided color scribbles. This thesis first delves into a comprehensive overview of state-of-the-art image colorization methods, color spaces, evaluation metrics, and losses. While recent colorization methods based on deep-learning techniques are achieving the best results on this task, these methods are based on complex architectures and a high number of joint losses, which makes the reasoning behind each of these methods difficult. Here, we leverage a simple architecture in order to analyze the impact of different color spaces and several losses. Then, we propose a novel attention layer based on superpixel features to establish robust correspondences between high-resolution deep features from target and reference image pairs, called super-attention. This proposal deals with the quadratic complexity problem of the non-local calculation in the attention layer. Additionally, it helps to overcome color bleeding artifacts. We study its use in color transfer and exemplar-based colorization. We finally extend this model to specifically guide the colorization on segmented objects. Finally, we propose a diffusion probabilistic model based on implicit and explicit conditioning mechanism, to learn colorizing line art. Our approach enables the incorporation of user guidance through explicit color hints while leveraging on the prior knowledge from the trained diffusion model. We condition with an application-specific encoder that learns to extract meaningful information on user-provided scribbles. The method generates diverse and high-quality colorized images.
La colorisation est le processus qui consiste à ajouter des couleurs aux images en niveaux de gris. C’est une tâche importante dans la communauté de l’édition d’images et de l’animation. Bien que des méthodes de colorisation automatique existent, elles produisent souvent des résultats insatisfaisants en raison de défauts tels que le débordement de couleur, l’incohérence, des couleurs non naturelles et la nature non trivial du problème. Par conséquent, une intervention manuelle est souvent nécessaire pour obtenir le résultat souhaité. En conséquence, il y a un intérêt croissant à automatiser le processus de colorisation tout en permettant aux artistes d’ajouter leur propre style et vision. Dans cette thèse, nous étudions divers formats d’interaction en guidant les couleurs sur des zones spécifiques d’une image, ou en les transférant à partir d’une image ou d’un objet de référence. Nous introduisons deux méthodes de colorisation semi-automatiques. Tout d’abord, nous décrivons une architecture d’apprentissage profond pour la colorisation d’images qui prend en compte les images de référence de l’utilisateur. Notre deuxième méthode utilise un modèle de diffusion pour coloriser des dessins en utilisant des indications de couleur fournies par l’utilisateur. Cette thèse commence par l’état de l’art des méthodes de colorisation d’images, des espaces de couleur, des métriques d’évaluation et des fonctions de perte. Bien que les méthodes de colorisation récentes basées sur des techniques d’apprentissage profond obtiennent les meilleurs résultats, ces méthodes sont basées sur des architectures complexes et un grand nombre de fonctions de perte, ce qui rend difficile leur compréhension. Pour cela, nous utilisons une architecture simple afin d’analyser l’impact de différents espaces de couleur et fonctions de perte. Ensuite, nous proposons une nouvelle couche d’attention appelée super-attention qui utilise des superpixels. Elle permet d’établir des correspondances entre les caractéristiques hautes résolutions de paires d’images cible et référence. Cette proposition permet d’atténuer le problème de la complexité quadratique des couches d’attention. De plus, elle aide à surmonter les défauts de débordement de couleur dans la tâche de colorisation. Nous étudions son utilisation pour le transfert de couleur, et pour la colorisation basée sur des exemples. Nous proposons également une extension de ce modèle afin de guider spécifiquement la colorisation sur des objets segmentés. Enfin, nous proposons un modèle de diffusion probabiliste basé sur des conditionnements implicites et explicites, pour apprendre à coloriser des dessins au trait. Notre approche permet d’ajouter des interactions utilisateur à travers des indices de couleur explicites tout en s’appuyant sur l’entraînement du modèle de diffusion principal. Nous utilisons un encodeur spécifique qui apprend à extraire des informations sur les indices de couleur fournis par l’utilisateur. Ce modèle permet d’obtenir des images colorisées diverses et de haute qualité.
Fichier principal
Vignette du fichier
CARRILLO_HERNAN_2024.pdf (17.45 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04446168 , version 1 (08-02-2024)

Identifiants

  • HAL Id : tel-04446168 , version 1

Citer

Hernan Carrillo. Guiding neural networks for image colorization through user interactions. Image Processing [eess.IV]. Université de Bordeaux, 2024. English. ⟨NNT : 2024BORD0016⟩. ⟨tel-04446168⟩
72 Consultations
12 Téléchargements

Partager

Gmail Facebook X LinkedIn More