Explainable Deep Learning for the Application to Multimodal Data - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Explainable Deep Learning for the Application to Multimodal Data

Apprentissage Profond explicable Application sur les données multimodales

Résumé

The progress of deep neural networks in the last decade across the domains has led to concern about the black-box nature of these models. For the trustworthiness of deep neural networks, as deep neural networks are inherently considered opaque and black-box in nature explanation of the decisions in a human-understandable manner is an open problem. Domains with high-stakes decisions such as judicial crimes, healthcare, social media, and finance, are extremely vulnerable to the decision by deep neural models. Recently, with the advent of deep neural models such as transformers, the increasing complexity and number of parameters make explainability in a human-understandable manner more important. The work presented in this thesis, can be divided into two parts, first developing a multimodal network targeted towards the application of risk detection. The data for risk detection consists of egocentric videos and signal data acquired from various physiological and motion sensors. As the acquisition of the data is in a realworld scenario, there are several challenges that arise for the use of this multimedia data using multimodal networks, i) weak synchronization of the data between the modalities, ii) data missingness, iii) understanding the representation between the modalities. To develop the multimodal network, at first we study the signals from various sensors, to benchmark our model for the use of sensors we use sensor-based human activity recognition datasets. Next, we develop our multimodal networks for visual and sensor data. For the video data, we benchmarked using a large-scale human action recognition dataset. For our next part, we develop explainability methods for the transformers, more specifically the vision transformers (saliency-based), in this, we evaluate our method w.r.t, the human-attention-based gaze fixation system. For the video-based system, we developed a model for highlighting the temporal importance of the frames. This developed model is used on the visual data of the risk detection system and benchmarked on a large-scale human action dataset. Next, we take leverage of our explanability method and extend to use this method for better generalization of our multimodal system. The two forms of multimodal data representation have been tested, one the intermediate fusion in the feature space and the next late fusion in the decision space. In this work, we also have touched upon robustness and domain generalization using the interpretation of the models.
Le travail présenté dans cette thèse peut être divisé en deux parties. La première partie concerne le développement d’un réseau multimodal destiné à l’application de la détection des risques des personnes fragiles dans l’environnement à domicile. Les données consistent en des vidéos égocentriques et des signaux acquis à partir de divers capteurs physiologiques et de mouvement. Comme l’acquisition des données se fait dans un scénario réel, l’utilisation de ces données complexes dans des réseaux multimodaux pose plusieurs problèmes : i) la faible synchronisation des données entre les modalités, ii) l’absence de données, iii) la compréhension de la représentation entre les modalités. Pour développer un réseau véritablement multimodal, nous nous concentrons d’abord sur les composants uni-modaux, concevons et évaluons nos modèles sur des ensembles de données uni-modales libres d’accès. Ensuite, les modèles sont fusionnés dans une architecture multimodale pour prendre des décisions sur des données multimodales réelles. L’une des configurations que nous avons proposées est un transformer multimodal. Les deux formes de fusion d’informations ont été étudiées : i) la fusion intermédiaire dans l’espace des caractéristiques et ii) la fusion tardive dans l’espace de décision. Dans la deuxième partie de la thèse, nous développons des méthodes d’explicitation pour les transformers, plus particulièrement les transformers visuels. Nous avons évalué notre méthode en termes de plausibilité des explications obtenues par rapport aux cartes de densité de fixations du regard humain. Cette partie du travail a été réalisée sur un ensemble de données d’images fixes. Notre objectif étant de développer des solutions pour l’analyse d’informations temporelles, telles que la vidéo, et sur la base de la philosophie de l’importance par l’explication, nous avons proposé un modèle pour mettre en évidence l’importance temporelle des images dans la vidéo. Ce modèle a été utilisé sur les données visuelles du système de détection des risques et comparé à un ensemble de données à grande échelle sur les actions humaines. Ensuite, nous tirons parti de notre méthode d’explicabilité proposée et l’utilisons pour une meilleure généralisation du transformer multimodal proposé. En effet, l’utilisation de techniques d’explicabilité dans les transformers multimodaux permet d’augmenter la précision de ces classificateurs sur des données complexes du monde réel et ouvre des perspectives intéressantes pour les études sur l’éparcité et la robustesse de ces approches.
Fichier principal
Vignette du fichier
MALLICK_RUPAYAN_2023.pdf (12.6 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04413085 , version 1 (23-01-2024)

Identifiants

  • HAL Id : tel-04413085 , version 1

Citer

Rupayan Mallick. Explainable Deep Learning for the Application to Multimodal Data. Artificial Intelligence [cs.AI]. Université de Bordeaux, 2023. English. ⟨NNT : 2023BORD0256⟩. ⟨tel-04413085⟩
81 Consultations
31 Téléchargements

Partager

Gmail Facebook X LinkedIn More