Deep Learning methods for monocular 3D vision systems

Rémy Leroy

Résumé

In this thesis, we explore deep learning methods for monocular 3D vision systems, from image acquisition to processing. We first propose Pix2Point, a method for 3D point cloud prediction from a single image using context information, trained with an optimal transport loss. Pix2Point achieves a better coverage of the scenes when trained on sparse point clouds than monocular depth estimation methods, trained on sparse depth maps. Second, to exploit sensor depth cues, we propose a depth regression method from a defocused patch, which outperforms classification and direct regression, on simulated and real data. Finally, we tackle the design of a RGB-D monocular vision system for which the image is processed jointly by our defocus-based depth regression method and a simple image deblurring network. We propose an end-to-end multi-task optimisation framework of sensor and network parameters, that we apply to the focus optimisation for a chromatic lens. The optimisation landscape presents multiple optima, due to the depth regression task, while the deblurring task appears less sensitive to the focus. This thesis hence contains several contributions exploiting neural networks for monocular 3D estimation and paves the way towards end-to-end design of RGB-D systems.

Dans cette thèse, nous étudions l'apport de l'apprentissage profond pour les systèmes de vision 3D monoculaire, de l'acquisition de l'image au traitement. Nous proposons d'abord Pix2Point, une méthode d'estimation de nuage de points 3D à partir d'une seule image en utilisant des informations de contexte, et entraînée avec une fonction de coût de transport optimal. Pix2Point réalise une meilleure couverture des scènes lorsqu'il est entraîné sur des nuages de points lacunaires que les méthodes d'estimation de profondeur monoculaire, entraînées sur des cartes de profondeur lacunaires. Deuxièmement, pour exploiter les indices de profondeur provenant du capteur, nous proposons une méthode de régression de profondeur à partir d'un patch défocalisé. Cette méthode surpasse la classification et la régression directe, sur données simulées et réelles. Enfin, nous abordons la conception d'un système de vision RVB-D, composé d'un capteur dont l'image est traitée par notre réseau de régression de profondeur basée sur la défocalisation et par un réseau de défloutage d'image. Nous proposons un cadre d'optimisation multi-tâches, conjointement aux paramètres des capteurs et des réseaux, et nous l'appliquons à l'optimisation de la mise au point d'une lentille chromatique. Le paysage d'optimisation présente plusieurs optima liés à la tâche de régression en profondeur, tandis que la tâche de défloutage semble moins sensible au paramètre de mise au point. En résumé, cette thèse propose plusieurs contributions exploitant les réseaux de neurones pour l'estimation 3D monoculaire et ouvre la voie d'une conception conjointe de systèmes RVB-D.

Deep Learning methods for monocular 3D vision systems

Méthodes d'apprentissage profond pour systèmes de vision 3D

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager