Deep learning multi-modal fusion based 3D object detection - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Deep learning multi-modal fusion based 3D object detection

Détection d'objets 3D par fusion multimodale basée sur l'apprentissage profond

Résumé

3D object detection is a key component of the autonomous vehicle perception module. The spatial position of the object is indicated in a cubic bounding box after detection. The subsequent pipeline tasks, such as recognition, segmentation and prediction, rely on an accurate detection. Over the past five years, 3D object detection has been gaining more and more attention. Many excellent deep learning-based algorithms have been proposed and have led to significant progress in detection accuracy. Various data modalities are available for 3D object detection, where image and LiDAR are the two commonly adopted modalities. LiDAR modality is preferred by most detectors since its accurate depth information that spatially contours the object. In contrast, image modality is limited by the ambiguous depth information, resulting in unsatisfactory 3D object detection accuracy. Some pioneering work attempts to exploit both accurate depth information and rich semantic information by fusing the two modalities. However, there is not yet a fusion paradigm that has been widely proven to be effective. In addition, all existing fusion 3D object detection methods are based on the assumption of synchronized data. As the number of modalities increases, the synchronization frequency decreases leading to a bottleneck in the detection efficiency. It will obviously reduce the safety of autonomous vehicles. To address the above issues, this thesis proposes the following contributions, summarized in four points : 1) The distortion during the evaluation of average precision score using the N-point interpolation method is revealed. The average precision distortion that may lead to server evaluation failure is completely analyzed. In order to address the distortion problem, we propose an enhanced N-point interpolation method. By changing the interpolation interval area calculation method and interpolation point location, the average precision distortion is properly eliminated. 2) We introduce a unified image optimization model for removing redundant areas that share the same sampled parameter images. Instead of optimizing each image, the proposed NPAE algorithm estimates and crops the common Non-Pedestrian Area for all images. Therefore, the NPAE algorithm can reduce the detection time consumption while maintaining detection accuracy. 3) Afterwards, We explore the late fusion method of synchronous multi-modal data. A large number of false positives are observed in the 3D object detection proposals based on the single LiDAR modality. These false positive proposals can be classified in image modality. Therefore, all proposals are projected onto image plane for verification by the image classifier. This late multi-modal fusion model is called Cross-Modal Verification (CMV). After the processing of CMV model, the false positives are decreased by 50 %. 4) Finally, we discover a novel asynchronous multi-modal fusion scenario and provide a solution. Asynchronous data flow is widely present in sensor sampling procedures for multiple modalities. Making full utilization of asynchronous data enables a significant increase in the frequency of data supplied for detection by autonomous vehicle. For this purpose, we propose the Asynchronous Multi-modal Fusion 3D object detector (AF3D). It can work in both synchronous and asynchronous states. Furthermore, AF3D has the ability to fuse asynchronous data with synchronous data. In this case, the detection accuracy of asynchronous frame with only image modality is significantly improved.
La détection d'objets en 3D est un élément clé du module de perception du véhicule autonome. Après la détection, la position spatiale de l'objet est indiquée dans une boîte de délimitation cubique. Les tâches ultérieures du pipeline, telles que la reconnaissance, la segmentation et la prédiction, reposent sur une détection précise. Au cours des cinq dernières années, la détection d'objets en 3D a suscité de plus en plus d'attention. De nombreux algorithmes excellents basés sur l'apprentissage profond ont été proposés et ont permis de réaliser des progrès significatifs en matière de précision de détection. Diverses modalités de données sont disponibles pour la détection d'objets en 3D, l'image et le LiDAR étant les deux modalités les plus couramment adoptées. La modalité LiDAR est préférée par la plupart des détecteurs en raison de la précision de ses informations de profondeur qui délimitent spatialement l'objet. En revanche, la modalité image est limitée par l'ambiguïté des informations de profondeur, d'où une précision insuffisante de la détection d'objets en 3D. Certains travaux pionniers tentent d'exploiter à la fois les informations de profondeur précises et les riches informations sémantiques en fusionnant les deux modalités. Cependant, il n'existe pas encore de paradigme de fusion dont l'efficacité a été largement prouvée. En outre, toutes les méthodes existantes de détection d'objets 3D par fusion reposent sur l'hypothèse de données synchronisées. Plus le nombre de modalités augmente, plus la fréquence de synchronisation diminue, ce qui entraîne un goulot d'étranglement dans l'efficacité de la détection. Cela réduira évidemment la sécurité des véhicules autonomes. Pour répondre aux questions ci-dessus, cette thèse propose les contributions suivantes, résumées en quatre points : 1) La distorsion lors de l'évaluation de la note de précision moyenne en utilisant la méthode d'interpolation à N points est révélée. La distorsion de la précision moyenne qui peut conduire à l'échec de l'évaluation du serveur est complètement analysée. Afin de résoudre le problème de distorsion, nous proposons une méthode d'interpolation à N points améliorée. En modifiant la méthode de calcul de la zone de l'intervalle d'interpolation et l'emplacement du point d'interpolation, la distorsion de la précision moyenne est correctement éliminée. 2) Nous introduisons un modèle d'optimisation d'image unifié pour supprimer les zones redondantes qui partagent les mêmes images de paramètres échantillonnés. Au lieu d'optimiser chaque image, l'algorithme NPAE proposé estime et récolte la zone non piétonne commune pour toutes les images. Par conséquent, l'algorithme NPAE peut réduire la consommation de temps de détection tout en maintenant la précision de détection. 3) Ensuite, nous explorons la méthode de fusion tardive des données multimodales synchrones. Un grand nombre de faux positifs sont observés dans les propositions de détection d'objets 3D basées sur la seule modalité LiDAR. Ces propositions de faux positifs peuvent être classées dans la modalité image. Par conséquent, toutes les propositions sont projetées sur le plan de l'image pour vérification par le classificateur d'image. Ce modèle de fusion multi-modale tardive est appelé vérification cross-modale (CMV). Après le traitement du modèle CMV, les faux positifs sont réduits de 50 %. 4) Enfin, nous découvrons un nouveau scénario de fusion multimodale asynchrone et proposons une solution. Le flux de données asynchrone est largement présent dans les procédures d'échantillonnage de capteurs pour des modalités multiples. L'utilisation complète des données asynchrones permet d'augmenter de manière significative la fréquence des données fournies pour la détection par un véhicule autonome. Dans ce but, nous proposons le détecteur d'objets 3D à fusion multimodale asynchrone (AF3D). Il peut fonctionner à la fois en état synchrone et asynchrone. De plus, AF3D a la capacité de fusionner des données [...]
Fichier principal
Vignette du fichier
These-ZHANG-Haodi.pdf (13.02 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04266832 , version 1 (31-10-2023)

Identifiants

  • HAL Id : tel-04266832 , version 1

Citer

Haodi Zhang. Deep learning multi-modal fusion based 3D object detection. Computer Vision and Pattern Recognition [cs.CV]. Normandie Université, 2023. English. ⟨NNT : 2023NORMIR08⟩. ⟨tel-04266832⟩
139 Consultations
14 Téléchargements

Partager

Gmail Facebook X LinkedIn More