Multimodal Document Understanding with Unified Vision and Language Cross-Modal Learning

Souhail Bakkali

Thèse Année : 2022

Multimodal Document Understanding with Unified Vision and Language Cross-Modal Learning

Apprentissage inter-modal et unifié de la vision et du langage pour la compréhension multimodale des documents

(1)

Souhail Bakkali

Fonction : Auteur
PersonId : 1280947
IdRef : 271675322

Laboratoire Informatique, Image et Interaction - EA 2118

Résumé

The frameworks developed in this thesis were the outcome of an iterative process of analysis and synthesis between existing theories and our performed studies. More specifically, we wish to study cross-modality learning for contextualized comprehension on document components across language and vision. The main idea is to leverage multimodal information from document images into a common semantic space. This thesis focuses on advancing the research on cross-modality learning and makes contributions on four fronts: (i) to proposing a cross-modal approach with deep networks to jointly leverage visual and textual information into a common semantic representation space to automatically perform and make predictions about multimodal documents (i.e., the subject matter they are about); (ii) to investigating competitive strategies to address the tasks of cross-modal document classification, content-based retrieval and few-shot document classification; (iii) to addressing data-related issues like learning when data is not annotated, by proposing a network that learns generic representations from a collection of unlabeled documents; and (iv) to exploiting few-shot learning settings when data contains only few examples.

Les modèles développés dans cette thèse sont le résultat d'un processus itératif d'analyse et de synthèse entre les théories existantes et nos études réalisées. Plus spécifiquement, nous souhaitons étudier l'apprentissage inter-modal pour la compréhension contextualisée sur les composants des documents à travers le langage et la vision. Cette thèse porte sur l'avancement de la recherche sur l'apprentissage inter-modal et apporte des contributions sur quatre fronts : (i) proposer une approche inter-modale avec des réseaux profonds pour exploiter conjointement les informations visuelles et textuelles dans un espace de représentation sémantique commun afin d'effectuer et de créer automatiquement des prédictions sur les documents multimodaux; (ii) à étudier des stratégies concurrentielles pour s'attaquer aux tâches de classification de documents intermodaux, de récupération basée sur le contenu et de classification few-shot de documents ; (iii) pour résoudre les problèmes liés aux données comme l'apprentissage lorsque les données ne sont pas annotées, en proposant un réseau qui apprend des représentations génériques à partir d'une collection de documents non étiquetés ; et (iv) à exploiter les paramètres d'apprentissage few-shot lorsque les données ne contiennent que peu d’exemples.

Mots clés

Multimodal document understanding Cross-modal document classification Multimodal fusion Few-shot learning Self-attention mechanisms Contrastive learning Deep learning

Compréhension de documents multimodaux Classification de documents Inter-modaux Fusion multimodale Apprentissage à plusieurs reprises Mécanismes d’auto- attention Apprentissage contrastif Apprentissage en profondeur

Domaines

Traitement du texte et du document

Fichier principal

2022BAKKALI197672.pdf (32.23 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-04197696

Soumis le : mercredi 6 septembre 2023-13:10:39

Dernière modification le : jeudi 7 septembre 2023-04:41:10

Dates et versions

tel-04197696 , version 1 (06-09-2023)

Identifiants

HAL Id : tel-04197696 , version 1

Citer

Souhail Bakkali. Multimodal Document Understanding with Unified Vision and Language Cross-Modal Learning. Document and Text Processing. Université de La Rochelle, 2022. English. ⟨NNT : 2022LAROS046⟩. ⟨tel-04197696⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

STAR UNIV-ROCHELLE THESES-LRU

73 Consultations

5 Téléchargements

Multimodal Document Understanding with Unified Vision and Language Cross-Modal Learning

Apprentissage inter-modal et unifié de la vision et du langage pour la compréhension multimodale des documents

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager