Local features for RGBD image matching under viewpoint changes

Maxim Karpushin

Résumé

In the last five-to-ten years, 3D acquisition has emerged in many practical areas thanks to new technologies that enable a massive generation of texture+depth (RGBD) visual content, including infrared sensors Microsoft Kinect, Asus Xtion, Intel RealSense, Google Tango, laser 3D scanners (LIDARs). The increasing availability of this enriched visual modality, combining both photometric and geometric information about the observed scene, opens up new horizons for different classic problems in vision, robotics and multimedia. In this thesis, we address the task of establishing local visual correspondences in images, which is a basic task that numerous higher-level problems are settled with. The local correspondences are commonly found through local visual features. While these have been exhaustively studied for traditional images, little work has been done so far for the case of RGBD content. This thesis begins with a study of the invariance of existing local feature extraction techniques to different visual deformations. It is known that the traditional photometric local features that do not rely on any kind of geometrical information may be robust to various in-plane transformations, but are highly sensible to perspective distortions caused by viewpoint changes and local 3D transformations of the surface. Yet, those visual deformations are widely present in real-world applications. Based on this insight, we attempt to eliminate this vulnerability in the case of texture+depth input, by properly embedding the complementary geometrical information into the first two stages of the feature extraction process: repeatable interesting point detection and distinctive local descriptor computation. With this objective, we contribute with several new approaches of keypoint detection and descriptor extraction, that preserve the conventional degree of keypoint covariance and descriptor invariance to in-plane visual deformations, but aim at improved stability to out-of-plane (3D) transformations in comparison to existing texture-only and texture+depth local features. In order to assess the performance of the proposed approaches, we revisit a classic feature repeatability and discriminability evaluation procedure, taking into account the extended modality of the input. Along with this, we conduct experiments using application-level scenarios on RGBD datasets acquired with Kinect sensors. The results show the advantages of the new proposed RGBD local features in terms of stability under viewpoint changes.

Au cours des dernières années l'acquisition des données 3D s’est de plus en plus démocratisée grâce à des nouvelles technologies permettant la génération massive du contenu texture+profondeur (RGBD), y compris les capteurs infra-rouges Microsoft Kinect, Asus Xtion, Intel RealSense, Google Tango, scanneurs laser (LIDARs). La disponibilité croissante de cette modalité visuelle enrichie, combinant l'information photométrique et géométrique, présente des nouvelles perspectives pour des différents problèmes classiques dans la vision, robotique et multimédia. Dans cette thèse, nous considérons la recherche des correspondances visuelles locales dans les images RGBD, qui est une tâche basique pour un nombre de problèmes de haut niveau et de scénarios applicatifs. Les correspondances locales sont typiquement établies à l'aide de caractéristiques visuelles locales. Quoique ces dernières aient été étudiées profondément dans l'imagerie traditionnelle, peu de travaux couvrent ce sujet le cas du contenu texture+profondeur. Cette thèse commence par une étude de l'invariance des caractéristiques visuelles existantes à des différentes déformations visuelles. Il est connu que les caractéristiques locales traditionnelles issues de l'information photométrique uniquement peuvent être robustes à des différentes transformations dans le plan de caméra, mais sont très sensibles aux distorsions perspectives induites par des mouvements de la caméra et des transformations locales tridimensionnelles de la surface. Au même temps, ces déformations visuelles sont fréquemment présentes dans la majorité des applications réelles. Partant de cette observation, nous essayons d'éliminer cette vulnérabilité dans le cas des images texture+profondeur, en intégrant proprement le complément géométrique dans les deux étapes de l'extraction des caractéristiques visuelles: la détection de points clefs répétables et leur description locale. Avec cet objectif, nous contribuons avec plusieurs approches de détection et description des points clefs, qui préservent la dégrée conventionnelle de la covariance des points clefs et de l'invariance des descripteurs aux transformations visuelles dans le plan de caméra, mais qui ciblent également une meilleure stabilité aux transformations tridimensionnelles par rapport aux approches existantes. Afin de évaluer la performance des techniques développées, nous avons adapté une procédure standard d'évaluation de répétabilité et de discriminabilité des caractéristiques visuelles, en prenant compte la présence de l’information géométrique. Avec cela, nous mettons en place des applications des caractéristiques locales en utilisant des données acquises avec un capteur Kinect. Les résultats obtenus démontrent des avantages des méthodes conçues en termes de stabilité des caractéristiques aux mouvements de la caméra.

Local features for RGBD image matching under viewpoint changes

Caractéristiques locales pour la mise en correspondance d'images RGBD sous changements de position de la camera

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Relations

Exporter

Collections

Partager