Sensor fusion with deep neural networks for 3D object detection for autonomous vehicles

Nguyen Anh Minh Mai

Résumé

This thesis deals with 3D object detection for autonomous driving, using various data sources. The main objective is to detect 3D objects in driving scenes. There are a number of factors that challenge this task, including the variability of conditions as well as the number of objects, lighting, and weather factors. A performance gap exists between methods based on LiDAR and those based on cameras or fusion. In contrast to camera-based methods, which are troubled by the lack of depth information, fusion-based methods have the problem of multiple data sources (such as camera, RADAR, and LiDAR). To address these challenges, we review and evaluate the most prominent state-of-the-art techniques to assess the current state of 3D object detection in autonomous vehicles. We then propose a new fusion-based approach for 3D object detection. Two key questions have been addressed. The first concern is how efficiently fuse images and point cloud data in a single architecture that will be able to learn high-level representatives from the deep neural networks and result in improved detection abilities. A second question is how adverse weather conditions affect sensors, how does it affect the performance of the detection model, as well as what data should be used in the model based on these adverse conditions? This resulted in the introduction of a new 3D object detection technique called SLS-Fusion (Sparse LiDAR and Stereo Fusion), which uses a stereo camera and LiDAR to predict a depth map. This depth map is then converted into a pseudo point cloud by using camera-LiDAR extrinsic parameters. Finally, this pseudo point cloud can be used with any current state-of-the-art LiDAR-based object detection method to obtain 3D bounding boxes. Our architecture can improve both depth estimation and 3D object detection accuracy. Experimental results on public datasets (KITTI) show that the proposed approach outperforms the current state-of-the-art. We also conducted research on the problem of detection in foggy weather conditions. To do this, we have created a foggy dataset called Multifog KITTI. This dataset is augmented on the KITTI dataset. Like KITTI, It includes 7,481 frames for training and 7,518 frames for testing with fog intensity (from 20 m to 80 m visibility) applied. In these conditions, the model's performance drop, however shows a marked improvement when training with additional foggy data. We have also analyzed several aspects: the contribution of the two types of sensors both in favorable weather and in foggy weather conditions, when they are fused and when they are used separately. The main result is that using LiDAR in foggy weather leads to a slightly bad object detection performance (even worse when the LiDAR is a 4-beam laser sensor). On the other hand, results based on stereo camera are promising in foggy weather, regardless of the level of visibility. In an ablation study, the contribution of a stereo camera and different versions of LiDAR (4 to 64 beams) to the performance of the SLS-fusion model in detecting 3D obstacles is analyzed. Based on our ablation analysis and the different measurements used to evaluate our detection algorithms, we have shown that sensors should always be unseparated for better performance. Quantitative results have shown that detection performance drops reasonably with each component disabled (stereo camera or LiDAR) or by modifying the number of LiDAR beams. These findings open new research directions for 3D object detection for autonomous driving by combining stereo camera images with LiDAR point clouds. Additionally, we generate and introduce in this thesis the Multifog KITTI dataset, a new foggy weather conditions dataset that contains both images and point clouds.

L'objectif principal de cette thèse est de détecter des objets 3D dans des scènes routières en présence de conditions climatiques défavorables comme le brouillard, avec un nombre d'objets multiple. Un écart de performance entre les méthodes basées sur le LiDAR et celles sur les caméras ou la fusion est observé. Les méthodes basées sur la fusion vidéo+Lidar doivent gérer simultanément plusieurs sources de données. Nous examinons en détail les techniques avancées de la littérature sur la détection d'objets 3D pour les véhicules autonomes. Nous proposons ensuite une nouvelle approche basée sur la fusion pour la détection de ces objets. Un premier problème est de savoir comment fusionner efficacement des images et des données sous forme de nuages de points dans une architecture unique qui sera capable d'apprendre des représentations de haut niveau à partir d'un réseau de neurones profond et d'améliorer les capacités de détection. Une deuxième question est de savoir comment les conditions météorologiques défavorables affectent les capteurs et les performances du modèle de détection, et quelles données doivent être utilisées dans le modèle en fonction de ces conditions défavorables ? Cela a abouti à l'introduction d'une nouvelle technique de détection d'objets 3D appelée SLS-Fusion (Sparse LiDAR and Stereo Fusion), qui utilise une caméra stéréo et un LiDAR pour prédire une carte de profondeurs. Cette dernière est ensuite convertie en pseudo nuage de points à des fins de traitements. Afin d'obtenir des boîtes englobantes 3D, le pseudo nuage de points peut être utilisé avec n'importe quelle méthode actuelle de détection d'objets basée sur le LiDAR. Notre architecture peut améliorer à la fois l'estimation de la profondeur et la précision de la détection d'objets 3D. Les résultats expérimentaux sur des ensembles de données publiques (KITTI) montrent que l'approche proposée surpasse l'état de l'art actuel. La détection d'objets 3D par temps de brouillard a aussi été traité. Un jeu de données artificiel a été crée (fogification de la base KITTI) avec des distances de visibilité variables (Base Multifog KITTI est la résultante allant de 10m à 80m de visibilité). Comme pour KITTI, 7481 images d'apprentissage et 7518 images de test ont été utilisées. Les meilleurs résultats obtenus sont ceux qui utilisent des données d'apprentissage avec du brouillard quand on cherche à détecter des obstacles en présence de brouillard. Nous avons également analysé d'autres aspects : l'apport des deux types de capteurs aussi bien par temps favorable que par temps de brouillard, lorsqu'ils sont fusionnés et lorsqu'ils sont utilisés séparément. Le résultat principal est que l'utilisation du LiDAR par temps de brouillard conduit à une performance de détection d'objets assez mauvaise (surtout avec un LiDAR 4 nappes). Les résultats basés sur la caméra stéréo sont prometteurs par temps de brouillard, quel que soit le niveau de visibilité. Dans une étude d'ablation, la contribution d'une caméra stéréo et de différentes versions de LiDAR (4 à 64 nappes) aux performances du modèle SLS-Fusion dans la détection d'obstacles 3D est analysée. Les meilleurs résultats obtenus sont ceux issus de la fusion vidéo+Lidar. Les résultats quantitatifs ont montré que les performances de détection chutent raisonnablement lorsqu'on diminue le nombre de nappes des Lidar dans le processus de fusion avec la vidéo. Ces résultats ouvrent de nouvelles directions de recherche pour la détection d'objets 3D pour la conduite autonome en combinant des images de caméra stéréo avec des nuages de points LiDAR. De plus, nous générons et introduisons dans cette thèse le jeu de données Multifog KITTI, une nouvelle base de données sur les conditions de brouillard qui contient à la fois des images et des nuages de points. Cette base pourra être utile à la communauté des chercheurs du domaine à des fins de comparaison.

Sensor fusion with deep neural networks for 3D object detection for autonomous vehicles

Fusion de capteurs par réseaux de neurones profonds pour la détection d'objets 3D dans l'environnement des véhicules autonomes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager