Challenges and Remedies for Context-Aware Neural Machine Translation

Lorenzo Lupo

Résumé

Current neural machine translation systems have reached close-to-human quality in trans- lating stand-alone sentences. When it comes to translating documents, instead, machine translation has a significant margin of improvement ahead. In fact, some ambiguous elements of the discourse have multiple valid translations at the sentence level but only one at the document level, where they lose their ambiguity in the presence of extra-sentential context. Retrieving and exploiting such context to produce consistent document-level translations represents a challenging task. Many researchers have taken up this challenge in recent years and proposed approaches to context-aware neural machine translation. A common taxonomy divides them into two families: multi-encoding and single-encoding approaches, also known as concatenation approaches. The former family includes all the approaches that employ the standard encoder-decoder architecture to produce latent representations of the current sentence and that introduce additional learnable modules to encode and integrate its context, i.e., the previous or following sentences. Concate- nation approaches, instead, rely entirely on the encoder-decoder architecture, but they concatenate the context to the current sentence before feeding it into the system. In this work, we analyze both families of approaches to context-aware neural machine translation, identify some of their weaknesses, and address them with novel solutions. For multi-encoding systems, we identify two learning challenges faced by the modules that handle context: the sparsity of the training signal and the sparsity of disambiguating contextual elements. We introduce a novel pre-training setting in which sparsity is alleviated and demonstrate its effectiveness in fostering the learning process. For concatenation approaches, we address the challenge of dealing with long sequences by proposing a training objective that encourages the model to focus on the most relevant parts of each sequence. We couple this training objective with a novel technique to strengthen sentence boundaries and analyze their impact on the learned attention mechanism. Finally, we present a comparative study of various methods for discerning segments in the concatenation sequence, including novel variants of segment embeddings.

Les systèmes actuels de traduction automatique neuronale ont atteint une qualité proche de celle d’un traducteur humain pour la traduction de phrases isolées. En revanche, lorsqu’il s’agit de traduire des documents, la traduction automatique dispose d’une marge d’amélioration importante. En fait, certains éléments ambigus du discours ont plusieurs traductions valides au niveau de la phrase mais une seule au niveau du document, car ils perdent leur ambiguïté en présence du contexte extra-sententiel. L’identification et l’exploitation du contexte utile pour produire des traductions cohérentes au niveau du document représentent une tâche difficile. De nombreux chercheurs ont relevé ce défi ces dernières années et ont proposé des approches de traduction automatique neuronale sensible au contexte. On peut les classer en deux familles : les approches à encodage multiple et les approches à encodage unique, également appelées approches de concaténation. La première famille comprend toutes les approches qui utilisent l’architecture standard d’encodeur-décodeur pour produire des représentations latentes de la phrase courante et qui introduisent des modules supplémentaires pour encoder et intégrer son contexte, c’est-à-dire les phrases précédentes ou suivantes. Les approches par concaténation, au contraire, reposent entièrement sur l’architecture standard d’encodeur-décodeur, mais elles concatènent le contexte à la phrase actuelle avant de l’introduire dans le système. Dans ce travail, nous analysons les deux familles d’approches de traduction automatique neuronale sensible au contexte, nous identifions certaines de leurs faiblesses et nous y remédions par des solutions originales. Pour les systèmes à encodage multiple, nous identifions deux défis d’apprentissage auxquels sont confrontés les modules qui gèrent le contexte : la rareté du signal d’apprentissage et la rareté des éléments contextuels de désambiguïsation. Nous introduisons un nouveau cadre de pré-entraînement dans lequel la rareté est atténuée et nous démontrons son efficacité expérimentalement. Pour les approches de concaténation, nous relevons le défi de traiter de longues séquences en proposant un objectif d’entraînement qui encourage le modèle à se concentrer sur les parties les plus pertinentes de chaque séquence. Nous couplons cet objectif d’entraînement avec une nouvelle technique pour renforcer la séparation des phrases dans séquence traitée. Nous analysons l’impact de ces solutions sur le mécanisme d’attention appris. Enfin, nous présentons une étude comparative de diverses méthodes pour discerner les segments dans la séquence de concaténation, y compris des nouvelles variantes de plongement de segments.

Challenges and Remedies for Context-Aware Neural Machine Translation

Défis et remèdes pour la traduction automatique neuronale en contexte

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager