Skip to Main content Skip to Navigation
Theses

Robust and comprehensive joint image-text representations

Résumé : La présente thèse étudie la modélisation conjointe des contenus visuels et textuels extraits à partir des documents multimédias pour résoudre les problèmes intermodaux. Ces tâches exigent la capacité de ``traduire'' l'information d'une modalité vers une autre. Un espace de représentation commun, par exemple obtenu par l'Analyse Canonique des Corrélation ou son extension kernelisée est une solution généralement adoptée. Sur cet espace, images et texte peuvent être représentés par des vecteurs de même type sur lesquels la comparaison intermodale peut se faire directement.Néanmoins, un tel espace commun souffre de plusieurs déficiences qui peuvent diminuer la performance des ces tâches. Le premier défaut concerne des informations qui sont mal représentées sur cet espace pourtant très importantes dans le contexte de la recherche intermodale. Le deuxième défaut porte sur la séparation entre les modalités sur l'espace commun, ce qui conduit à une limite de qualité de traduction entre modalités. Pour faire face au premier défaut concernant les données mal représentées, nous avons proposé un modèle qui identifie tout d'abord ces informations et puis les combine avec des données relativement bien représentées sur l'espace commun. Les évaluations sur la tâche d'illustration de texte montrent que la prise en compte de ces information fortement améliore les résultats de la recherche intermodale. La contribution majeure de la thèse se concentre sur la séparation entre les modalités sur l'espace commun pour améliorer la performance des tâches intermodales. Nous proposons deux méthodes de représentation pour les documents bi-modaux ou uni-modaux qui regroupent à la fois des informations visuelles et textuelles projetées sur l'espace commun. Pour les documents uni-modaux, nous suggérons un processus de complétion basé sur un ensemble de données auxiliaires pour trouver les informations correspondantes dans la modalité absente. Ces informations complémentaires sont ensuite utilisées pour construire une représentation bi-modale finale pour un document uni-modal. Nos approches permettent d'obtenir des résultats de l'état de l'art pour la recherche intermodale ou la classification bi-modale et intermodale.
Complete list of metadatas

Cited literature [127 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-01591614
Contributor : Abes Star :  Contact
Submitted on : Thursday, September 21, 2017 - 4:07:06 PM
Last modification on : Saturday, December 21, 2019 - 3:44:38 AM

File

theseTRAN_pdfa.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-01591614, version 1

Collections

Citation

Thi Quynh Nhi Tran. Robust and comprehensive joint image-text representations. Image Processing [eess.IV]. Conservatoire national des arts et metiers - CNAM, 2017. English. ⟨NNT : 2017CNAM1096⟩. ⟨tel-01591614⟩

Share

Metrics

Record views

379

Files downloads

273