Multi-Lingual Dependency Parsing : Word Representation and Joint Training for Syntactic Analysis

Mathieu Dehouck

Résumé

Syntactic analysis is a key step in working with natural languages. With the advances in supervised machine learning, modern parsers have reached human performances. However, despite the intensive efforts of the dependency parsing community, the number of languages for which data have been annotated is still below the hundred, and only a handful of languages have more than ten thousands annotated sentences. In order to alleviate the lack of training data and to make dependency parsing available for more languages, previous research has proposed methods for sharing syntactic information across languages. By transferring models and/or annotations or by jointly learning to parse several languages at once, one can capitalise on languages grammatical similarities in order to improve their parsing capabilities. However, while words are a key source of information for mono-lingual parsers, they are much harder to use in multi-lingual settings because they vary heavily even between very close languages. Morphological features on the contrary, are much more stable across related languages than word forms and they also directly encode syntactic information. Furthermore, it is arguably easier to annotate data with morphological information than with complete dependency structures. With the increasing availability of morphologically annotated data using the same annotation scheme for many languages, it becomes possible to use morphological information to bridge the gap between languages in multi-lingual dependency parsing. In this thesis, we propose several new approaches for sharing information across languages. These approaches have in common that they rely on morphology as the adequate representation level for sharing information. We therefore also introduce a new method to analyse the role of morphology in dependency parsing relying on a new measure of morpho-syntactic complexity. The first method uses morphological information from several languages to learn delexicalised word representations that can then be used as feature and improve mono-lingual parser performances as a kind of distant supervision. The second method uses morphology as a common representation space for sharing information during the joint training of model parameters for many languages. The training process is guided by the evolutionary tree of the various language families in order to share information between languages historically related that might share common grammatical traits. We empirically compare this new training method to independently trained models using data from the Universal Dependencies project and show that it greatly helps languages with few resources but that it is also beneficial for better resourced languages when their family tree is well populated. We eventually investigate the intrinsic worth of morphological information in dependency parsing. Indeed not all languages use morphology as extensively and while some use morphology to mark syntactic relations (via cases and persons) other mostly encode semantic information (such as tense or gender). To this end, we introduce a new measure of morpho-syntactic complexity that measures the syntactic content of morphology in a given corpus as a function of preferential head attachment. We show through experiments that this new measure can tease morpho-syntactic languages and morpho-semantic languages apart and that it is more predictive of parsing results than more traditional morphological complexity measures.

L’analyse syntaxique est une étape cruciale du traitement de la langue. Suite aux récentes avancées dans le domaine de l’apprentissage automatique, les parsers (analyseurs syntaxiques) atteignent des résultats comparables à ceux d’experts humains. Cependant, en dépit des efforts de la communauté, le nombre de langues ayant des données annotées est encore relativement faible et seules une vingtaine de langues ont plus de 10000 phrases annotées. Afin de lutter contre le manque de données d’apprentissage et rendre l’analyse syntaxique en dépendances accessible à plus de langues, des chercheurs ont proposé des méthodes pour partager de l’information syntaxique entre différentes langues. En transférant modèles et/ou annotations ou en apprenant à analyser plusieurs langues en même temps, l’on peut profiter des similarités grammaticales des différentes langues et ainsi améliorer leurs analyses respectives. Par contre, alors que les mots sont une source d’information importante pour l’analyse monolingue, ils sont bien moins facilement utilisables dans un contexte multilingue du fait de le grande variabilité même entre des langues proches. Les traits grammaticaux (personne, genre, mode, cas...) sont biens plus stables que les mots et ils encodent directement de l’information syntaxique. Il est également plus simple d’annoter du texte juste avec les traits grammaticaux qu’avec la structure en dépendances complète. D’autant plus qu’avec l’augmentation de nombre langues ayant des données annotées suivant les mêmes règles d’annotation, il devient possible d’utiliser l’information morphologique comme pont entre les langues pour l’analyse syntaxique multilingue en dépendances. Dans cette thèse, nous présentons de nouvelles méthodes pour partager de l’information entre plusieurs langues. Elles ont en commun le fait d’utiliser la morphologie comme espace de représentation pour partager l’in- formation. Nous présentons également une nouvelle mesure de la complexité morphosyntaxique nous permettant d’étudier le rôle de la morphologie dans l’analyse en dépendances. La première méthode utilise de l’information morphologique de plusieurs langues pour induire des représenta- tions de mots délexicalisées qui peuvent être utilisées ensuite pour améliorer les résultats de parsers monolingues. La seconde méthode traite la morphologie comme un espace de travail commun à toutes les langues pour y partager de l’information lors de l’apprentissage simultané de modèles d’analyse syntaxique. L’apprentissage y est guidé par l’arbre phylogénique des différentes familles de langues, ce qui permet de partager de l’information entre les langues historiquement liées susceptibles de partager des trait grammaticaux. Nous montrons par le biais d’expériences avec les données du projet Universal Dependencies que cette nouvelle méthodes d’apprentissage est bien plus efficace que l’apprentissage de modèles indépendants pour les langues ayant très peu de ressources, et qu’elle est aussi bénéfiques pour les langues mieux dotées dès que leurs branches sont biens fournies. Nous finissons avec une étude de la valeur intrinsèque de la morphologie pour l’analyse syntaxique. Dans les faits, alors que certaines langues utilisent la morphologie pour encoder de l’information syntaxique (avec les cas et les personnes), d’autres encodent surtout de l’information sémantique (comme le temps ou le mode). Ainsi nous introduisons une nouvelle mesure de la complexité morphosyntaxique qui quantifie l’information syntaxique contenue dans la morphologie en termes d’attachement préférentiel au gouverneur. Nous montrons par une série d’expériences que cette nouvelle mesure est capable de discriminer les langues morphosyntaxiques des langues morphosémantiques et qu’elle prédit mieux la qualité de l’analyse syntaxique d’une langue que les mesures plus traditionnelles de complexité morphologique.

Multi-Lingual Dependency Parsing : Word Representation and Joint Training for Syntactic Analysis

Parsing en Dépendances Multilingue : Représentation de Mots et Apprentissage Joint pour l’Analyse Syntaxique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager