Extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée

Résumé : Les systèmes de traduction automatique obtiennent aujourd'hui de bons résultats sur certains couples de langues comme anglais – français, anglais – chinois, anglais – espagnol, etc. Les approches de traduction empiriques, particulièrement l'approche de traduction automatique probabiliste, nous permettent de construire rapidement un système de traduction si des corpus de données adéquats sont disponibles. En effet, la traduction automatique probabiliste est fondée sur l'apprentissage de modèles à partir de grands corpus parallèles bilingues pour les langues source et cible. Toutefois, la recherche sur la traduction automatique pour des paires de langues dites «peu dotés» doit faire face au défi du manque de données. Nous avons ainsi abordé le problème d'acquisition d'un grand corpus de textes bilingues parallèles pour construire le système de traduction automatique probabiliste. L'originalité de notre travail réside dans le fait que nous nous concentrons sur les langues peu dotées, où des corpus de textes bilingues parallèles sont inexistants dans la plupart des cas. Ce manuscrit présente notre méthodologie d'extraction d'un corpus d'apprentissage parallèle à partir d'un corpus comparable, une ressource de données plus riche et diversifiée sur l'Internet. Nous proposons trois méthodes d'extraction. La première méthode suit l'approche de recherche classique qui utilise des caractéristiques générales des documents ainsi que des informations lexicales du document pour extraire à la fois les documents comparables et les phrases parallèles. Cependant, cette méthode requiert des données supplémentaires sur la paire de langues. La deuxième méthode est une méthode entièrement non supervisée qui ne requiert aucune donnée supplémentaire à l'entrée, et peut être appliquée pour n'importe quelle paires de langues, même des paires de langues peu dotées. La dernière méthode est une extension de la deuxième méthode qui utilise une troisième langue, pour améliorer les processus d'extraction de deux paires de langues. Les méthodes proposées sont validées par des expériences appliquées sur la langue peu dotée vietnamienne et les langues française et anglaise.
Type de document :
Thèse
Autre [cs.OH]. Université de Grenoble, 2011. Français. 〈NNT : 2011GRENM065〉
Liste complète des métadonnées

Littérature citée [52 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00680046
Contributeur : Abes Star <>
Soumis le : samedi 17 mars 2012 - 12:52:19
Dernière modification le : jeudi 11 octobre 2018 - 08:48:03
Document(s) archivé(s) le : lundi 18 juin 2012 - 17:06:18

Fichier

20580_DO_2011_archivage1.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-00680046, version 1

Citation

Thi Ngoc Diep Do. Extraction de corpus parallèle pour la traduction automatique depuis et vers une langue peu dotée. Autre [cs.OH]. Université de Grenoble, 2011. Français. 〈NNT : 2011GRENM065〉. 〈tel-00680046〉

Partager

Métriques

Consultations de la notice

1655

Téléchargements de fichiers

5025