Robustness of Visual SLAM techniques to light changing conditions

Xi Wang

Résumé

The SLAM (Simultaneous Localization And Mapping) technique concentrates on localizing and recovering the environment in a simultaneous way and is one of the core functionalities of many industrial products such as augmented reality, where the device poses should be tracked in real-time; autonomous driving, where one needs to localize the vehicle in a pre-generated map or unknown environment; and even modern filmmaking workflow, where the relative camera position and orientation are critical for post-processing or real-time prevising for directors and actors to visualise the visual effects on the stage. Multiple difficulties in different levels can influence the final performance of robot agents’s SLAM task, as the pipeline is long and complicated from the real world physics to the required information such as agent poses and 3-D map, which help us visualize colourful graphics scenes in AR devices or make hard decisions on the highway for autonomous driving. Many solutions are proposed for addressing each problem, respectively, with the means from classic statistic probability models to the modern data-driven deep neural network. However, the quest of improving the robot’s robustness under dynamic and complicated environments perisists and becomes more and more significant and active for nowadays robotics research. The need for improving the robustness of robot agents is imminent and regarded as one of most imperative factors for deploying robots ubiquitously in our daily life. Under this context, this thesis tries to address a small drop in the ocean of the problem of SLAM robustness, yet in a very systematic view: we try to break down the SLAM system into different and inter-influential modules. Then use the concept of "divide and conquer" for answering possible questions within each module and wishing to contribute to the community and help improve the robustness of SLAM systems under complicated conditions. With the above objectives, the contributions of the thesis are stated as follows for tackling the robustness problem from multiple angles: 1) From the image feature angle, we proposed a multiple layered image structure for improving the performance of traditional local image features under extreme conditions. Furthermore, an optimization method on linear searching and mutual information assisted convex optimization are designed for tuning the optimal parameters with the proposed structure; 2) From the geometric primitive angle, we proposed a relative pose estimation and SLAM framework under the multiple planar assumption, by keypoint feature-based and template tracker based methods, respectively. We tried to achieve better performance of mapping and tracking simultaneously with the help of a more general planar assumption. 3) From the angle of relocalization of the SLAM system, the idea is to recover the already passed locations of the robot agent for lowering the overall estimation error or when the robot is in lost status. We proposed a binary graph structure for embedding spatial information and heterogeneous data formats such as depth image, semantic information etc. The proposed method enables robotics SLAM systems to relocalize themselves with a higher success rate even under different lighting, weather and seasonal conditions.

La technique SLAM (Simultaneous Localization And Mapping) se concentre sur la localisation et la récupération de l’environnement et est l’une des fonctionnalités de base de nombreux produits industriels tels que la réalité augmentée, où les poses de l’appareil doivent être suivies dans temps réel; conduite autonome, où il faut localiser le véhicule dans une carte pré-générée ou un environnement inconnu ; et même le flux de travail cinématographique moderne, où la position et l’orientation de la caméra sont essentielles pour le post-traitement ou le ‘prévis’ en temps réel permettant aux réalisateurs de visualiser les effets visuels. De multiples difficultés dans les différentes layers peuvent influencer la performance finale de la tâche SLAM des agents robotiques, car le pipeline est long et compliqué de la physique du monde réel aux informations requises telles que les poses des agents et la carte 3D, qui nous aident à visualiser des scènes graphiques colorées dans les appareils réalité augmenté ou prenez des décisions difficiles sur l’autoroute pour une véhicule autonome. Au fur et à mesure que l’appareil photo numérique acquiert les informations du monde physique et les reinterprète au format numérique, i.e. en pixels, de nombreux compromis ont été faits pour s’assurer que l’ensemble du flux de travail est réalisable. De nombreuses solutions sont proposées pour résoudre chaque problème, respective- ment, avec les moyens des modèles de probabilité statistiques classiques au moderne deep learning basé sur les données. Cependant, la quête d’amélioration de la robustesse du robot dans des environnements dynamiques et complexes persiste et devient de plus en plus importante et active pour la recherche en robotique d’aujourd’hui. Le besoin d’améliorer la robustesse des agents robots est imminent et considéré comme l’un des facteurs les plus impératifs pour déployer des robots de manière omniprésente dans notre vie quotidienne. Dans ce contexte, cette thèse tente d’aborder une petite goutte dans l’océan du problème de la robustesse du SLAM, mais dans une vision très systématique : nous essayons de décomposer le système SLAM en modules différents et inter-influents. Utilisez ensuite le concept de « diviser pour mieux régner » pour répondre aux questions au sein de chaque module et souhaiter contribuer à la communauté et améliorer la robustesse du SLAM. Avec les objectifs ci-dessus, les contributions de la thèse sont énoncées comme suit pour aborder le problème de robustesse sous plusieurs angles : 1) Du point de vue de l’image, nous avons proposé une structure d’image à plusieurs layers pour améliorer les performances des caractéristiques d’image locales traditionnelles dans des conditions extrêmes. De plus, une méthode d’optimisation sur la recherche linéaire et l’optimisation convexe assistée par information mutuelle sont conçues pour régler les paramètres optimaux avec la structure proposée; 2) Du point de vue du primitif géométrique, nous avons proposé une estimation de pose relative et un cadre SLAM sous l’hypothèse de plans multiples, respective- ment par des méthodes basées sur des caractéristiques de points clés et basées sur des modèles de suivi. Nous avons essayé d’obtenir de meilleures performances de cartographie et de suivi simultanément à l’aide d’une hypothèse planaire plus générale; 3) Du point de vue de la relocalisation du système SLAM, l’idée est de récupérer les endroits déjà passés par l’agent robot pour éliminer l’erreur d’estimation globale ou lorsque le robot est en état perdu. Nous avons proposé une structure de graphe avec des embedding binaire pour intégrer des informations spatiales et des formats de données hétérogènes tels que des images de profondeur, des informations sémantiques, même des résultats de deep learning etc. La méthode proposée permet aux systèmes robotiques SLAM de se relocaliser avec un taux de réussite plus élevé, même dans des conditions de différentes éclairage et saisonnières.

Robustness of Visual SLAM techniques to light changing conditions

Robustness of visual SLAM techniques to light changing conditions

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager