Depth attention for scene understanding

Zongwei Wu

Résumé

Deep learning models can nowadays teach a machine to realize a number of tasks, even with better precision than human beings. Among all the modules of an intelligent machine, perception is the most essential part without which all other action modules have difficulties in safely and precisely realizing the target task under complex scenes. Conventional perception systems are based on RGB images which provide rich texture information about the 3D scene. However, the quality of RGB images highly depends on environmental factors, which further influence the performance of deep learning models. Therefore, in this thesis, we aim to improve the performance and robustness of RGB models with complementary depth cues by proposing novel RGB-D fusion designs.Traditionally, pixel-wise concatenation with addition and convolution is the widely applied approach for RGB-D fusion designs. Inspired by the success of attention modules in deep networks, in this thesis we analyze and propose different depth-aware attention modules and demonstrate our effectiveness in basic segmentation tasks such as saliency detection and semantic segmentation. First, we leverage the geometric cues and propose a novel depth-wise channel of attention. We merge the fine-grained details and the semantic cues to constrain the channel attention into various local regions, improving the model discriminability during the feature extraction. Second, we investigate the depth-adapted offset which serves as a local but deformable spatial attention for convolution. Our approach forces the networks to take more relevant pixels into account with the help of depth prior. Third, we improve the contextualized awareness within RGB-D fusion by leveraging transformer attention. We show that transformer attention can improve the model robustness against feature misalignment. Last but not least, we focus on fusion architecture by proposing an adaptive fusion design. We learn the trade-off between early and late fusion with respect to the depth quality, yielding a more robust manner to merge RGB-D cues for deep networks. Extensive comparisons on the reference benchmarks validate the effectiveness of our proposed methods compared to other fusion alternatives.

Les modèles d'apprentissage profond peuvent aujourd'hui faire apprendre une machine à réaliser un certain nombre de tâches, même avec une meilleure précision que les êtres humains. Parmi toutes les applications, la perception est la partie la plus essentielle sans laquelle tous les autres modules d'action ont des difficultés à réaliser en toute sécurité et avec précision la tâche ciblée dans des scènes complexes. Habituellement, les systèmes de perception sont basés sur des images RGB qui fournissent des informations de texture sur la scène 3D. Cependant, la qualité des images RGB dépend fortement des facteurs environnementaux, qui influencent davantage les performances des modèles d'apprentissage. Par conséquent, dans cette thèse, nous visons à améliorer les performances et la robustesse des modèles RGB avec des information complémentatire venant de la profondeur (D) en proposant de nouvelles modules de fusion RGB-D.Traditionnellement, la concaténation pixel par pixel avec addition et convolution est l'approche largement appliquée pour la fusion RGB-D. Inspirés par le succès des modules d'attention dans les réseaux neurones, dans cette thèse, nous analysons et proposons différents modules d'attention sensibles à la profondeur et démontrons notre efficacité dans des tâches de segmentation telles que la détection de saillance et la segmentation sémantique. Tout d'abord, nous proposons une nouvelle attention sur les cannaux (channel attention). Nous fusionnons les détails fins et les indices sémantiques pour concertrer l'attention dans diverses régions locales, améliorant la discriminabilité du modèle lors de l'extraction des caractéristiques. Deuxièmement, nous étudions le décalage adapté à la profondeur qui sert d'attention spatiale locale mais déformable pour la convolution. Notre approche oblige les réseaux à prendre en compte des pixels plus pertinents à l'aide de la profondeur. Troisièmement, nous améliorons la prise de conscience contextualisée au sein de la fusion RGB-D en tirant parti de l'attention des transformers. Nous montrons que l'attention du transformer peut améliorer la robustesse du modèle contre le désalignement des caractéristiques. Enfin, nous nous concentrons sur l'architecture de fusion en proposant une conception de fusion adaptative. Nous apprenons le compromis entre la fusion précoce et tardive (early and late fusion) en ce qui concerne la qualité de la profondeur, ce qui donne une manière plus robuste de fusionner les signaux RGB-D pour les réseaux profonds. Des comparaisons approfondies sur les benchmarks de référence valident l'efficacité de nos méthodes proposées par rapport à d'autres alternatives de fusion.

Depth attention for scene understanding

Module d'attention sensible à la profondeur pour l'analyse de scènes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager