Méthodes en caractères pour le traitement automatique des langues

Etienne Denoual

Thèse Année : 2006

Character-based methods for natural language processing

Méthodes en caractères pour le traitement automatique des langues

(1)

Etienne Denoual

Fonction : Auteur
PersonId : 836001

Communication Langagière et Interaction Personne-Système

Résumé

Data-driven natural language processing has integrated a number of techniques and viewpoints from the field of speech recognition. In particular, the use of the word unit makes it difficult to transpose methods to languages with no orthographic separators. Such methods may not be applied in a multilingual context.
The present work aims at universal and multilingual methods, and therefore promotes the use of character-based methods for natural language processing. Although the word based processing of non-segmenting languages such as Chinese or Japanese requires a segmentation step, using the character, an immediately accessible unit in all languages in their electronic form, makes it unnecessary.

We first transposed to character units a well-known automatic evaluation measure for machine translation, BLEU.
The satisfying results obtained on BLEU lead us to consider other tasks in the field of linguistic data processing: grammatical filtering, and data profiling of the similarity and homogeneity of linguistic resources. Character based processing lead to satisfying results, comparable to those obtained when using words.
Last, we considered tasks in data generation: proportional analogy on character strings allows the automatic generation of paraphrases, as well as machine translation (MT).
This work shows that a complete MT system may be built which does not require any segmentation of linguistic data, and which may therefore handle non-segmenting languages with no preprocessing.

Le traitement automatique des langues fondé sur les données a récemment assimilé de nombreuses techniques et perspectives héritées du domaine de la reconnaissance de parole. Parmi celles-ci, les méthodes qui utilisent le mot comme unité de traitement sont difficilement transposables aux systèmes d'écriture sans séparateur orthographique, et ne sont donc pas multilingues.
Le présent travail promeut l'utilisation de méthodes travaillant au niveau du signal de l'écrit: le caractère, unité immédiatement accessible dans toute langue informatisée, permet de se passer de segmentation en mots, étape actuellement incontournable pour des langues comme le chinois ou le japonais.

Dans un premier temps, nous transposons et appliquons en caractères une méthode bien établie d'évaluation objective de la traduction automatique, BLEU.
Les résultats encourageants nous permettent dans un deuxième temps d'aborder d'autres tâches de traitement des données linguistiques. Tout d'abord, le filtrage de la grammaticalité; ensuite, la caractérisation de la similarité et de l'homogénéité des ressources linguistiques. Dans toutes ces tâches, le traitement en caractères obtient des résultats acceptables, et comparables à ceux obtenus en mots.
Dans un troisième temps, nous abordons des tâches de production de données linguistiques: le calcul analogique sur les chaines de caractères permet la production de paraphrases aussi bien que la traduction automatique.
Ce travail montre qu'on peut construire un système complet de traduction automatique ne nécessitant pas de segmentation, a fortiori pour traiter des langues sans séparateur orthographique.

Mots clés

évaluation de la traduction automatique traduction automatique par l'exemple. Informatique multilingue unités de traitement opérations sur les chaines de caractères filtrage de la grammaticalité méthodes entropiques caractérisation de ressources linguistiques modélisation stochastique de langue calcul analogique production de paraphrases traduction automatique par l'exemple

Domaines

Autre [cs.OH]

Fichier principal

doc_These.pdf (1.95 Mo)

Etienne Denoual : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00107056

Soumis le : mardi 17 octobre 2006-11:19:39

Dernière modification le : jeudi 4 avril 2024-18:19:57

Archivage à long terme le : jeudi 20 septembre 2012-12:00:43

Dates et versions

tel-00107056 , version 1 (17-10-2006)

Identifiants

HAL Id : tel-00107056 , version 1

Citer

Etienne Denoual. Méthodes en caractères pour le traitement automatique des langues. Autre [cs.OH]. Université Joseph-Fourier - Grenoble I, 2006. Français. ⟨NNT : ⟩. ⟨tel-00107056⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA IMAG CNRS UJF

206 Consultations

516 Téléchargements

Character-based methods for natural language processing

Méthodes en caractères pour le traitement automatique des langues

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager