Spatially Consistent Nearest Neighbor Representations for Fine-Grained Classification - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2016

Spatially Consistent Nearest Neighbor Representations for Fine-Grained Classification

Représentations d'images basées sur un principe de voisins partagés pour la classification fine

Résumé

This thesis focuses on the issue of fine-grained classification which is a particular classification task where classes may be visually distinguishable only from subtle localized details and where background often acts as a source of noise. This work is mainly motivated by the need to devise finer image representations to address such fine-grained classification tasks by encoding enough localized discriminant information such as spatial arrangement of local features. To this aim, the main research line we investigate in this work relies on spatially localized similarities between images computed thanks to efficient approximate nearest neighbor search techniques and localized parametric geometry. The main originality of our approach is to embed such spatially consistent localized similarities into a high-dimensional global image representation that preserves the spatial arrangement of the fine-grained visual patterns (contrary to traditional encoding methods such as BoW, Fisher or VLAD Vectors). In a nutshell, this is done by considering all raw patches of the training set as a large visual vocabulary and by explicitly encoding their similarity to the query image. The first contribution proposed in this work is a classification scheme based on a spatially consistent k-nn classifier that relies on pooling similarity scores between local features of the query and those of the similar retrieved images in the vocabulary set. As this set can be composed of a lot of local descriptors, we propose to scale up our approach by using approximate k-nearest neighbors search methods. Then, the main contribution of this work is a new aggregation-based explicit embedding derived from a newly introduced match kernel based on shared nearest neighbors of localized feature vectors combined with local geometric constraints. The originality of this new similarity-based representation space is that it directly integrates spatially localized geometric information in the aggregation process. Finally, as a third contribution, we proposed a strategy to drastically reduce, by up to two orders of magnitude, the high-dimensionality of the previously introduced over-complete image representation while still providing competitive image classification performance. We validated our approaches by conducting a series of experiments on several classification tasks involving rigid objects such as FlickrsLogos32 or Vehicles29 but also on tasks involving finer visual knowledge such as FGVC-Aircrafts, Oxford-Flower102 or CUB-Birds200. We also demonstrated significant results on fine-grained audio classification tasks such as the LifeCLEF 2015 bird species identification challenge by proposing a temporal extension of our image representation. Finally, we notably showed that our dimensionality reduction technique used on top of our representation resulted in highly interpretable visual vocabulary composed of the most representative image regions for different visual concepts of the training base.
Dans cette thèse, nous nous sommes intéressés au problème de la classification à « grain fin » qui est une tâche de classification particulière où les classes peuvent être visuellement distinguables seulement à partir de détails subtils et où le contexte agit souvent comme une source de bruit. Ce travail est principalement motivé par le besoin de concevoir des représentations d'images plus « fines » pour adresser de telles tâches de classification qui nécessitent un encodage d’informations discriminantes très fines et localisées. L'originalité principale de notre approche est d’intégrer dans une représentation globale de haute dimension une mesure de consistance géométrique locale entre l’image à représenter et les images d’une base de référence (que nous considérons comme un vocabulaire visuel possiblement constitué d’un grand nombre d’images). Ceci nous permet d’encoder dans une représentation vectorielle des motifs très localisés et géométriquement consistant avec l’image (contrairement aux méthodes de codage traditionnelles comme les Bag-of-Visual-Word, les vecteurs de Fisher ou les vecteurs VLAD). Plus en détails : Nous proposons dans un premier temps une approche de classification d'instances d'entités visuelles basée sur un classificateur par plus proches voisins qui aggrège les similarités entre l'image requête et celles de la base d'apprentissage. Les similarités sont calculées avec prise en compte de la consistance géométrique locale entre les descripteurs locaux de la requête et ceux des images de la base d'apprentissage. Cette base pouvant être constituée de nombreux descripteurs locaux, nous proposons de passer notre méthode à l’échelle en utilisant des méthodes de recherche approximatives de plus proches voisins. Par la suite, nous avons mis au point un nouveau noyau de similarité entre des images basé sur les descripteurs locaux qu'elles partagent dans une base de référence. Nous avons nommé ce noyau Shared Nearest Neighbors Kernel (SNN Kernel), qui peut être utilisé comme n'importe quel autre noyau dans les machines à noyau. Nous avons dérivé, à partir de ce dernier, une représentation explicite globale des images à décrire. Cette représentation encode la similarité de l'image considérée avec les différentes régions visuelles des images de la base correspondant au vocabulaire visuel. Nous avons également rendu possible l'intégration de l'information de consistance géométrique dans nos représentations à l'aide de l'algorithme RANSAC amélioré que nous avons proposé dans notre contribution précédente. La classification des images se fait ensuite par un modèle linéaire appris sur ces représentations. Finalement, nous proposons, comme troisième contribution, une stratégie permettant de considérablement réduire, jusqu'à deux ordres de grandeur, la dimension de la représentation d'image sur-complète précédemment présentée tout en conservant une performance de classification compétitive aux méthodes de l’état de l’art. Nous avons validé nos approches en conduisant une série d’expérimentations sur plusieurs tâches de classification impliquant des objets rigides comme FlickrsLogos32 ou Vehicles29, mais aussi sur des tâches impliquant des concepts visuels plus finement discriminables comme la base FGVC-Aircrafts, Oxford-Flower102 ou CUB-Birds200. Nous avons aussi démontré des résultats significatifs sur des tâches de classification audio à grain fin comme la tâche d'identification d'espèce d'oiseau de LifeCLEF2015 en proposant une extension temporelle de notre représentation d'image. Finalement, nous avons montré que notre technique de réduction de dimension permet d’obtenir un vocabulaire visuel très interprétable composé des régions d'image les plus représentatives pour les concepts visuels représentés dans la base d’apprentissage.
Fichier principal
Vignette du fichier
PhDThesis_Valentin (1).pdf (16.38 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01410137 , version 1 (06-12-2016)

Identifiants

  • HAL Id : tel-01410137 , version 1

Citer

Valentin Leveau. Spatially Consistent Nearest Neighbor Representations for Fine-Grained Classification. Computer Science [cs]. Université Montpellier, 2016. English. ⟨NNT : ⟩. ⟨tel-01410137⟩
461 Consultations
349 Téléchargements

Partager

Gmail Facebook X LinkedIn More