On depth prediction for autonomous driving using self-supervised learning

Houssem Eddine Boulahbal

Résumé

Perception of the environment is a critical component for enabling autonomous driving. It provides the vehicle with the ability to comprehend its surroundings and make informed decisions. Depth prediction plays a pivotal role in this process, as it helps the understanding of the geometry and motion of the environment. This thesis focuses on the challenge of depth prediction using monocular self-supervised learning techniques. The problem is approached from a broader perspective first, exploring conditional generative adversarial networks (cGANs) as a potential technique to achieve better generalization was performed. In doing so, a fundamental contribution to the conditional GANs, the ac cGAN was proposed. The second contribution entails a single image-to-depth self-supervised method, proposing a solution for the rigid-scene assumption using a novel transformer-based method that outputs a pose for each dynamic object. The third significant aspect involves the introduction of a video-to-depth map forecasting approach. This method serves as an extension of self-supervised techniques to predict future depths. This involves the creation of a novel transformer model capable of predicting the future depth of a given scene. Moreover, the various limitations of the aforementioned methods were addressed and a video-to-video depth maps model was proposed. This model leverages the spatio-temporal consistency of the input and output sequence to predict a more accurate depth sequence output. These methods have significant applications in autonomous driving (AD) and advanced driver assistance systems (ADAS). The approach is self-supervised, which eliminates the need for manual labeling of depth maps during training, making it efficient and cost-effective. Overall, this thesis makes several contributions to the field of autonomous driving by developing a self-supervised approach to depth prediction. The proposed approach is effective and efficient, with the potential to enhance the safety and reliability of autonomous driving systems. The implications of the findings are important for the design of advanced driver assistance systems and autonomous vehicles, bringing us one step closer to achieving the goal of fully autonomous driving.

La perception de l'environnement est un élément essentiel de la conduite autonome. Elle permet au véhicule de comprendre son environnement et de prendre des décisions informées. La prédiction de la profondeur joue un rôle central dans ce processus, car elle aide à comprendre la géométrie et le mouvement de l'environnement. Cette thèse se concentre sur le défi de la prédiction de la profondeur en utilisant des techniques d'apprentissage auto-supervisé en utilisant des cameras monoculaire. En premier lieu, le problème est abordé d'un point de vue plus large, en explorant les réseaux adversaires génératifs conditionnels (cGAN) en tant que technique potentielle pour obtenir une meilleure généralisation. Ce faisant, une contribution fondamentale aux GAN conditionnels, le cGAN ac, a été proposée.La deuxième contribution concerne une méthode auto-supervisée pour translater une image à une carte de profondeur, en proposant une solution pour les scènes rigides à l'aide d'une nouvelle méthode basée sur les transformeurs qui génère une pose pour chaque objet dynamique. Le troisième aspect important concerne l'introduction d'une approche de prévision du future de carte profondeur en utilisant la vidéo. Cette méthode sert d'extension aux techniques auto-supervisées pour prédire les profondeurs futures. Elle implique la création d'un nouveau modèle de transformateur capable de prédire la profondeur future d'une scène donnée. En outre, les diverses limitations des méthodes précédemment mentionnées ont été abordées et un modèle de cartes de profondeur vidéo-vidéo a été proposé. Ce modèle tire parti de la cohérence spatio-temporelle de la séquence d'entrée et de la séquence de sortie pour prédire une séquence de profondeur plus précise. Ces méthodes ont des applications significatives dans la conduite autonome et les systèmes avancés d'aide à la conduite. L'approche est auto-supervisée, ce qui élimine le besoin de labellisation manuelle des cartes de profondeur pendant la phase d'apprentissage, la rendant ainsi efficace et rentable. Dans l'ensemble, cette thèse apporte plusieurs contributions au domaine de la conduite autonome en développant une approche auto-supervisée de la prédiction de la profondeur. L'approche proposée est efficace, avec le potentiel d'améliorer la sécurité et la fiabilité des systèmes de conduite autonome. Les implications de ces résultats sont importantes pour la conception de systèmes avancés d'aide à la conduite et de véhicules autonomes, ce qui nous rapproche de l'objectif d'une conduite entièrement autonome.

On depth prediction for autonomous driving using self-supervised learning

Prédiction de la profondeur pour la conduite autonome à l'aide de l'apprentissage auto-supervisé

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager