Adaptive deep learning models for omnidirectional images : from perception to navigation - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Adaptive deep learning models for omnidirectional images : from perception to navigation

Modèles d'apprentissage profond adaptés aux images omnidirectionnelles : de la perception à la navigation

Résumé

Omnidirectional cameras for computer vision and robotics are becoming increasingly widespread. Indeed, thanks to their 360 degrees field of view, they allow a global perception of each observed scene in a single shot. Moreover, the latest generation of spherical cameras is more accurate, lighter, and less expensive, encouraging their use in many mobile applications.However, these images present significant distortions due to the spherical projection, such as in the polar regions of equirectangular images. As a result, conventional image processing methods often cannot recognize objects or understand what is happening in these areas. Thus, several methods have been proposed to overcome these distortions and often use a supervised learning on omnidirectional datasets. However, these spherical datasets are rare and usually limited to very specific use cases. In contrast, the perspective domain offers greater diversity and versatility. Therefore, in this thesis, we propose transferring perspective-based methods to omnidirectional content without additional training. Our simple and fast adaptation solution relies on distortion-aware convolutions using a local perspective projection on the sphere.To prove the relevance and generalization of our method to any convolutional network, we apply it to three commonly used computer vision tasks: semantic segmentation, depth, and optical flow estimation. When tested on specially created datasets and real scenarios, the spherically adapted networks always perform better than the baseline version.Following these results in computer vision, we focused on their use in robotics, particularly for drone navigation in complex, dense, and unstructured environments such as forests. Perception is crucial for image-based navigation, especially for obstacle avoidance. However, most current algorithms use images with a limited field of view.Therefore, this thesis proposes a solution using omnidirectional images and compares it to its perspective reference. For all scenarios and visual modalities considered, our equirectangular image-based navigation solution is safer and faster than its perspective counterpart, even in a much more complex environment than the one observed during training. In addition, using distortion-aware convolutions in the navigation algorithm also improves flight performance.
Les caméras omnidirectionnelles sont de plus en plus répandues en vision par ordinateur et robotique. En effet, grâce à leur champ de vision à 360 degrés, elles permettent d'acquérir en une seule prise de vue une scène complète. De plus, la diminution du cout et du poids des dernières caméras sphériques facilite leur intégration dans de nombreuses applications mobiles.Cependant, ces images présentent toujours des distorsions importantes en raison de la projection sphérique, comme dans les régions polaires des images équirectangulaires. Par conséquent, les approches traditionnelles de traitement d'image sont souvent incapables de reconnaitre les formes des objets, entrainant ainsi une mauvaise compréhension de la scène observée. Plusieurs méthodes ont donc été proposées pour prendre en compte ces distorsions et nécessitent le plus souvent un apprentissage supervisé basé sur des images omnidirectionnelles. Cependant, les ensembles de données sphériques sont rares et généralement limités à des applications très spécifiques. A l'inverse, ceux regroupant des images perspectives offrent une grande diversité et polyvalence.Dans cette thèse, nous proposons d'adapter des modèles entrainés avec des images perspectives et de les appliquer directement sur des données omnidirectionnelles en évitant tout apprentissage supplémentaire. Notre adaptation repose sur la prise en compte des distorsions sphériques lors des opérations de convolution par le biais de projections perspectives locales sur la sphère. La solution proposée est facile et rapide d'utilisation.Afin de démontrer la pertinence et la généralisation de notre méthode à tout réseau convolutionnel, nous l'appliquons à trois tâches de vision par ordinateur couramment utilisées : l'estimation de la segmentation sémantique, de la profondeur et du flot optique. Testée à la fois avec des données virtuelles et des scénarios réels, les réseaux adaptés sont toujours plus performants que ceux de référence.À la suite de ces résultats en vision par ordinateur, nous nous sommes penchés sur leur utilisation en robotique. La perception est une fonction cruciale de la chaine de navigation, notamment pour éviter les obstacles dans le cadre de la navigation de drones dans des environnements complexes, denses et non structurés tels que les forêts. Cependant, la plupart des algorithmes actuels sont limités par un champ de vision perspectif.Nous proposons donc ici une solution utilisant un champ de vision omnidirectionnel et la comparons à celle basée sur des images perspectives. Dans tous les scénarios testés, les images équirectangulaires permettent une navigation plus rapide et sure, y compris dans des situations plus complexes que celles rencontrées lors de l'apprentissage. En outre, la prise en compte des distorsions telle que proposée en première partie améliore également les performances de vol.
Fichier principal
Vignette du fichier
2023COAZ4039.pdf (81 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04260673 , version 1 (26-10-2023)

Identifiants

  • HAL Id : tel-04260673 , version 1

Citer

Charles-Olivier Artizzu. Adaptive deep learning models for omnidirectional images : from perception to navigation. Computer Vision and Pattern Recognition [cs.CV]. Université Côte d'Azur, 2023. English. ⟨NNT : 2023COAZ4039⟩. ⟨tel-04260673⟩
66 Consultations
2 Téléchargements

Partager

Gmail Facebook X LinkedIn More