Skip to Main content Skip to Navigation
Theses

Multimodal Machine Translation

Résumé : La traduction automatique vise à traduire des documents d’une langue à une autre sans l’intervention humaine. Avec l’apparition des réseaux de neurones profonds (DNN), la traduction automatique neuronale(NMT) a commencé à dominer le domaine, atteignant l’état de l’art pour de nombreuses langues. NMT a également ravivé l’intérêt pour la traduction basée sur l’interlangue grâce à la manière dont elle place la tâche dans un cadre encodeur-décodeur en passant par des représentations latentes. Combiné avec la flexibilité architecturale des DNN, ce cadre a aussi ouvert une piste de recherche sur la multimodalité, ayant pour but d’enrichir les représentations latentes avec d’autres modalités telles que la vision ou la parole, par exemple. Cette thèse se concentre sur la traduction automatique multimodale(MMT) en intégrant la vision comme une modalité secondaire afin d’obtenir une meilleure compréhension du langage, ancrée de façon visuelle. J’ai travaillé spécifiquement avec un ensemble de données contenant des images et leurs descriptions traduites, où le contexte visuel peut être utile pour désambiguïser le sens des mots polysémiques, imputer des mots manquants ou déterminer le genre lors de la traduction vers une langue ayant du genre grammatical comme avec l’anglais vers le français. Je propose deux approches principales pour intégrer la modalité visuelle : (i) un mécanisme d’attention multimodal qui apprend à prendre en compte les représentations latentes des phrases sources ainsi que les caractéristiques visuelles convolutives, (ii) une méthode qui utilise des caractéristiques visuelles globales pour amorcer les encodeurs et les décodeurs récurrents. Grâce à une évaluation automatique et humaine réalisée sur plusieurs paires de langues, les approches proposées se sont montrées bénéfiques. Enfin,je montre qu’en supprimant certaines informations linguistiques à travers la dégradation systématique des phrases sources, la véritable force des deux méthodes émerge en imputant avec succès les noms et les couleurs manquants. Elles peuvent même traduire lorsque des morceaux de phrases sources sont entièrement supprimés.
Document type :
Theses
Complete list of metadatas

Cited literature [198 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02309868
Contributor : Abes Star :  Contact
Submitted on : Wednesday, October 9, 2019 - 4:15:11 PM
Last modification on : Tuesday, March 31, 2020 - 3:21:41 PM

File

2019LEMA1016.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-02309868, version 1

Citation

Ozan Caglayan. Multimodal Machine Translation. Computation and Language [cs.CL]. Université du Maine, 2019. English. ⟨NNT : 2019LEMA1016⟩. ⟨tel-02309868⟩

Share

Metrics

Record views

368

Files downloads

477