Deep Learning for Near-duplicated Patterns Discovery and Alignment in Artworks

Xi Shen

Résumé

The goal of this thesis is to develop self-supervised learning approaches to artwork analysis. Precisely, we focus on two particular tasks: object discovery and fine alignment in a collection of artworks. Both tasks are extremely challenging in computer vision, the main difficulties include: i) no annotations are available for both tasks; ii) there are differences in the artistic media (oil, pastel, drawing, etc), and imperfections inherent in the copying process.Object discovery aims at identifying repeated visual patterns across a collection of artworks. This is an important application for art historians, as visual links built via the repeated details may indicate authorship and provenance. Apart from artwork analysis, the task is also interesting for applications on natural images, one typical example is that it enable automatically collect training data.Fine alignment takes a pair of images as inputs and predicts pixel-level alignment. Our goal is to design a generic image alignment approach, which allows aligning images with different appearances, viewpoints and styles, such as two frames in a video, two Internet images on the same landmark or even two paintings depicting the same content but with different styles. The precise flow leads to many interesting applications on artworks, such as texture transfer, aligning a group of images/patterns and analysis of copy process, etc. Moreover, the precise optical flow is also beneficial to several important 3D tasks including two-view geometry estimation and 3D reconstruction.The first technical contribution of this thesis is that we introduce a self-supervised approach to adapt a standard deep feature by fine-tuning it on the specific art collection. More specifically, spatial consistency between neighboring feature matches is used as supervision. The adapted feature leads to more accurate style-invariant matching, and we further propose a discovery pipeline, based on multi-resolution feature matching and geometric verification, to identify duplicate patterns in the dataset. Along with the approach, we also propose a dataset Brueghel which allows evaluating one-shot cross-domain art detail detection.Our second contribution is that we show that it is possible to learn co-segmentation for a pair of images on a synthetic dataset. We generate the training pairs by blending objects into a background image such that we have access into ground-truth masks and correspondences. We empirically study two architectures: Sparse Nc-Net and a transformer-based architecture, and show that employing Poisson Blending and style transfer is crucial for generalization. In terms of results, the trained transformer on the proposed dataset achieves surprisingly good performance on various tasks including one-shot cross-domain art detail detection, place recognition and object discovery.The last contribution is a two-stage method for generic image alignment. In the coarse stage, we estimate a homography transformation between a pair of images with standard feature matches and RANSAC; In the fine stage, we design and learn a small Convolutional Neural Network (CNN) to predict pixel-level alignment relying on the reconstruction loss SSIM. Yet simple, the proposed show competitive and better performance across different tasks: optical flow estimation, sparse correspondences evaluation, two-view geometry estimation, and 3D reconstruction, etc. We also show it is possible to align discovered duplicated patterns and images from Internet search.

Le but de cette thèse est de développer des méthodes d'apprentissage profond à l'analyse d'œuvres d'art. Précisément, nous nous concentrons sur deux tâches particulières : la découverte d'objets et l'alignement fin dans une collection d'œuvres d'art. Les deux tâches sont extrêmement difficiles en vision par ordinateur, les principales difficultés incluent : i) aucune annotation n'est disponible pour les deux tâches ; ii) il existe des différences dans les supports artistiques (huile, pastel, dessin, etc.), et des imperfections inhérentes au processus de copie.La découverte d'objets vise à identifier des motifs visuels répétés dans une collection d'œuvres d'art. C'est une application importante pour les historiens de l'art, car les liens visuels construits via les détails répétés peuvent indiquer la paternité et la provenance. Outre l'analyse d'œuvres d'art, la tâche est également intéressante pour les applications sur des images naturelles, un exemple typique est qu'elle permet de collecter automatiquement des données d'entraînement.L'alignement fin prend une paire d'images comme entrées et prédit l'alignement au niveau des pixels. Notre objectif est de concevoir une approche d'alignement d'images générique, qui permet d'aligner des images avec des apparences, des points de vue et des styles différents, tels que deux cadres dans une vidéo, deux images Internet sur le même point de repère ou même deux peintures représentant le même contenu mais avec des styles différents. . Le flux précis est important pour les tâches 3D et conduit également à de nombreuses applications intéressantes sur les œuvres d'art, telles que l'alignement d'un groupe d'images et l'analyse du processus de copie, etc.La première contribution de cette thèse est que nous introduisons une approche auto-supervisée pour adapter une fonctionnalité profonde standard en l'affinant sur la collection d'art spécifique. Plus précisément, la cohérence spatiale entre les correspondances de caractéristiques voisines est utilisée comme supervision. La caractéristique adaptée conduit à une correspondance invariante de style plus précise, et nous proposons en outre un pipeline de découverte, basé sur la correspondance de caractéristiques multi-résolution et la vérification géométrique, pour identifier les modèles en double dans l'ensemble de données. Parallèlement à l'approche, nous proposons également un jeu de données Brueghel qui permet d'évaluer la détection des détails de l'art en un coup.La deuxième contribution est que nous montrons qu'il est possible d'apprendre la co-segmentation sur un jeu de données synthétique. Nous générons les paires d'apprentissage en mélangeant des objets dans une image d'arrière-plan de telle sorte que les masques de vérité terrain et les correspondances soient accessibles. Nous étudions empiriquement deux architectures : Sparse Nc-Net et une architecture à base de transformateurs, et montrons que l'utilisation du mélange de Poisson et du transfert de style est cruciale pour la généralisation. Le transformateur entraîné sur l'ensemble de données proposé obtient des résultats étonnamment bons sur diverses tâches, notamment la détection de détails d'art à un coup, la reconnaissance de lieux et la découverte d'objets.La dernière contribution est une méthode en deux étapes pour l'alignement générique d'images. Au stade grossier, nous estimons une transformation d'homographie entre les images avec des correspondances de caractéristiques et RANSAC ; Au stade fin, nous apprenons un petit réseau de neurones convolutifs (CNN) pour prédire un alignement fin en s'appuyant sur la perte SSIM. Pourtant simple, la méthode proposée montre de bonnes performances dans différentes tâches : flux optique, correspondances éparses, estimation de la géométrie à deux vues et reconstruction 3D, etc. Nous montrons également qu'il est possible d'aligner des motifs artistiques dupliqués et des images découvertes à partir d'une recherche sur Internet.

Deep Learning for Near-duplicated Patterns Discovery and Alignment in Artworks

Apprentissage profond pour la découverte et l'alignement de modèles presque-dupliqués dans les œuvres d'art

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager