Multimodal Document Understanding with Unified Vision and Language Cross-Modal Learning - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Multimodal Document Understanding with Unified Vision and Language Cross-Modal Learning

Apprentissage inter-modal et unifié de la vision et du langage pour la compréhension multimodale des documents

Résumé

The frameworks developed in this thesis were the outcome of an iterative process of analysis and synthesis between existing theories and our performed studies. More specifically, we wish to study cross-modality learning for contextualized comprehension on document components across language and vision. The main idea is to leverage multimodal information from document images into a common semantic space. This thesis focuses on advancing the research on cross-modality learning and makes contributions on four fronts: (i) to proposing a cross-modal approach with deep networks to jointly leverage visual and textual information into a common semantic representation space to automatically perform and make predictions about multimodal documents (i.e., the subject matter they are about); (ii) to investigating competitive strategies to address the tasks of cross-modal document classification, content-based retrieval and few-shot document classification; (iii) to addressing data-related issues like learning when data is not annotated, by proposing a network that learns generic representations from a collection of unlabeled documents; and (iv) to exploiting few-shot learning settings when data contains only few examples.
Les modèles développés dans cette thèse sont le résultat d'un processus itératif d'analyse et de synthèse entre les théories existantes et nos études réalisées. Plus spécifiquement, nous souhaitons étudier l'apprentissage inter-modal pour la compréhension contextualisée sur les composants des documents à travers le langage et la vision. Cette thèse porte sur l'avancement de la recherche sur l'apprentissage inter-modal et apporte des contributions sur quatre fronts : (i) proposer une approche inter-modale avec des réseaux profonds pour exploiter conjointement les informations visuelles et textuelles dans un espace de représentation sémantique commun afin d'effectuer et de créer automatiquement des prédictions sur les documents multimodaux; (ii) à étudier des stratégies concurrentielles pour s'attaquer aux tâches de classification de documents intermodaux, de récupération basée sur le contenu et de classification few-shot de documents ; (iii) pour résoudre les problèmes liés aux données comme l'apprentissage lorsque les données ne sont pas annotées, en proposant un réseau qui apprend des représentations génériques à partir d'une collection de documents non étiquetés ; et (iv) à exploiter les paramètres d'apprentissage few-shot lorsque les données ne contiennent que peu d’exemples.
Fichier principal
Vignette du fichier
2022BAKKALI197672.pdf (32.23 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04197696 , version 1 (06-09-2023)

Identifiants

  • HAL Id : tel-04197696 , version 1

Citer

Souhail Bakkali. Multimodal Document Understanding with Unified Vision and Language Cross-Modal Learning. Document and Text Processing. Université de La Rochelle, 2022. English. ⟨NNT : 2022LAROS046⟩. ⟨tel-04197696⟩
73 Consultations
5 Téléchargements

Partager

Gmail Facebook X LinkedIn More