Efficient large-context dependency parsing and correction with distributional lexical resources

Enrique Henestroza Anguiano

Thèse Année : 2013

Efficient large-context dependency parsing and correction with distributional lexical resources

Analyse syntaxique probabiliste en dépendances : approches efficaces à large contexte avec ressources lexicales distributionnelles

(1)

Enrique Henestroza Anguiano

Fonction : Auteur
PersonId : 878441

Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing

Résumé

This thesis explores ways to improve the accuracy and coverage of efficient statistical dependency parsing. We employ transition-based parsing with models learned using Support Vector Machines (Cortes and Vapnik, 1995), and our experiments are carried out on French. Transition-based parsing is very fast due to the computational efficiency of its underlying algorithms, which are based on a local optimization of attachment decisions. Our first research thread is thus to increase the syntactic context used. From the arc-eager transition system (Nivre, 2008) we propose a variant that simultaneously considers multiple candidate governors for right-directed attachments. We also test parse correction, inspired by Hall and Novák (2005), which revises each attachment in a parse by considering multiple alternative governors in the local syntactic neighborhood. We find that multiple-candidate approaches slightly improve parsing accuracy overall as well as for prepositional phrase attachment and coordination, two linguistic phenomena that exhibit high syntactic ambiguity. Our second research thread explores semi-supervised approaches for improving parsing accuracy and coverage. We test self-training within the journalistic domain as well as for adaptation to the medical domain, using a two-stage parsing approach based on that of McClosky et al. (2006). We then turn to lexical modeling over a large corpus: we model generalized lexical classes to reduce data sparseness, and prepositional phrase attachment preference to improve disambiguation. We find that semi-supervised approaches can sometimes improve parsing accuracy and coverage, without increasing time complexity.

Cette thèse présente des méthodes pour améliorer l'analyse syntaxique probabiliste en dépendances. Nous employons l'analyse à base de transitions avec une modélisation effectuée par des machines à vecteurs supports (Cortes and Vapnik, 1995), et nos expériences sont réalisées sur le français. L'analyse a base de transitions est rapide, de par la faible complexité des algorithmes sous-jacents, eux mêmes fondés sur une optimisation locale des décisions d'attachement. Ainsi notre premier fil directeur est d'élargir le contexte syntaxique utilisé. Partant du système de transitions arc-eager (Nivre, 2008), nous proposons une variante qui considère simultanément plusieurs gouverneurs candidats pour les attachements à droite. Nous testons aussi la correction des analyses, inspirée par Hall and Novák (2005), qui révise chaque attachement en choisissant parmi plusieurs gouverneurs alternatifs dans le voisinage syntaxique. Nos approches améliorent légèrement la précision globale ainsi que celles de l'attachement des groupes prépositionnels et de la coordination. Notre deuxième fil explore des approches semi-supervisées. Nous testons l'auto-entrainement avec un analyseur en deux étapes, basé sur McClosky et al. (2006), pour le domaine journalistique ainsi que pour l'adaptation au domaine médical. Nous passons ensuite à la modélisation lexicale à base de corpus, avec des classes lexicales généralisées pour réduire la dispersion des données, et des préférences lexicales de l'attachement des groupes prépositionnels pour aider à la désambiguïsation. Nos approches améliorent, dans certains cas, la précision et la couverture de l'analyseur, sans augmenter sa complexité théorique.

Mots clés

computational linguistics syntactic parsing lexical resources support vector machines transition-based parsing dependency grammar semi-supervised learning domain adaptation

linguistique informatique analyse syntaxique ressources lexicales machines à vecteurs supports analyse à base de transitions grammaires de dépendance apprentissage semi-supervisé adaptation de domaine

Domaines

Traitement du texte et du document

Fichier principal

henestroza2013these.pdf (923.21 Ko)

Enrique Henestroza Anguiano : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00860720

Soumis le : mardi 10 septembre 2013-22:16:11

Dernière modification le : vendredi 21 janvier 2022-03:21:46

Archivage à long terme le : jeudi 6 avril 2017-17:29:29

Dates et versions

tel-00860720 , version 1 (10-09-2013)

Identifiants

HAL Id : tel-00860720 , version 1

Citer

Enrique Henestroza Anguiano. Efficient large-context dependency parsing and correction with distributional lexical resources. Document and Text Processing. Université Paris-Diderot - Paris VII, 2013. English. ⟨NNT : ⟩. ⟨tel-00860720⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-PARIS7 INRIA INRIA2

215 Consultations

469 Téléchargements

Efficient large-context dependency parsing and correction with distributional lexical resources

Analyse syntaxique probabiliste en dépendances : approches efficaces à large contexte avec ressources lexicales distributionnelles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager