A generic and open framework for multiword expressions treatment: from acquisition to applications - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2012

A generic and open framework for multiword expressions treatment: from acquisition to applications

Une plate-forme générique et ouverte pour le traitement des expressions polylexicales : de l'acquisition aux applications

Résumé

This thesis presents an open and flexible methodological framework for the automatic acquisition of multiword expressions (MWEs) from monolingual textual corpora. This research is motivated by the importance of MWEs for natural language processing applications. After briefly presenting the modules of the framework, the work reports evaluation results considering two applications: computer-aided lexicography and statistical machine translation. Both applications can benefit from automatic MWE acquisition and the expressions acquired automatically from corpora can both speed up and improve their quality. The promising results of our experiments encourage further investigation about the optimal way to integrate MWE treatment into these and many other applications.
Cette thèse présente un environnement ouvert et flexible pour l'acquisition automatique d'expressions polylexicales (EPL) à partir de corpus textuels monolingues. Cette recherche est motivée par l'importance des EPL pour les applications de traitment automatique des langues. Après avoir brièvement présenté les modules de l'environnement, nous présentons des résultats d'évaluation en utilisant deux applications : la lexicographie assistée par ordinateur et la traduction automatique statistique. Ces deux applications peuvent bénéficier de l'acquisition automatique des EPL, et les expressions acquises automatiquement à partir de corpus peuvent à la fois les accélérer et améliorer leur qualité. Les résultats prometteurs de nos expériences nous encouragent à mener des recherches ultérieures sur la façon optimale d'intégrer le traitement des EPL dans ces applications et dans bien d'autres.
Fichier principal
Vignette du fichier
thesis.pdf (2.29 Mo) Télécharger le fichier

Dates et versions

tel-00741147 , version 1 (11-10-2012)
tel-00741147 , version 2 (09-09-2013)

Identifiants

  • HAL Id : tel-00741147 , version 1

Citer

Carlos Ramisch. A generic and open framework for multiword expressions treatment: from acquisition to applications. Computation and Language [cs.CL]. Université de Grenoble; Universidade Federal do Rio Grande do Sul, 2012. English. ⟨NNT : ⟩. ⟨tel-00741147v1⟩
530 Consultations
3736 Téléchargements

Partager

Gmail Facebook X LinkedIn More