Usage of non-conventional resources and contributive methods to bridge the terminological gap between languages by developing multilingual "preterminologies"

Résumé : Notre motivation est de combler le fossé terminologique qui grandit avec la production massive de nouveaux concepts (50 quotidiens) dans divers domaines, pour lesquels les termes sont souvent inventés d'abord dans une certaine langue bien dotée, telle que l'anglais ou le français. Trouver des termes équivalents dans différentes langues est nécessaire pour de nombreuses applications, telles que la RI translingue et la TA. Cette tâche est très difficile, particulièrement pour certaines langues très utilisées telles que l'arabe, parce que (1) seule une petite proportion de nouveaux termes est correctement enregistrée par des terminologues, et pour peu de langues ; (2) des communautés spécifiques créent continuellement des termes équivalents sans les normaliser ni même les enregistrer (terminologie latente) ; (3) dans de nombreux cas, aucuns termes équivalents ne sont créés, formellement ou informellement (absence de terminologie). Cette thèse propose de remplacer le but impossible de construire d'une manière continue une terminologie à jour, complète et de haute qualité pour un grand nombre de langues par celui de construire une preterminologie, en utilisant des méthodes non conventionnelles et des contributions passives ou actives par des communautés d'internautes : extraction de termes parallèles potentiels non seulement à partir de textes parallèles ou comparables, mais également à partir des logs (traces) des visites à des sites Web tels que DSR (Route de la Soie Digitale), et à partir de données produites par des jeux sérieux. Une préterminologie est un nouveau genre de ressource lexicale qui peut être facilement construit et a une bonne couverture. Suivant en ceci une tendance croissante en lexicographie computationnelle et en TALN en général, nous représentons une préterminologie multilingue par une structure de graphe (Preterminological Multilingual Graph, MPG), où les nœuds portent des prétermes et les arcs des relations préterminologiques simples (synonymie monolingue, traduction, généralisation, spécialisation, etc.) qui sont des approximations des relations (terminologiques ou ontologiques) usuelles. Un Système complet pour Éliciter une Préterminologie (SEPT) a été développé pour construire et maintenir des MPG. Des approches passives ont été expérimentées en développant un MPG pour le site Web culturel de DSR, et un autre pour le domaine de l'onirologie arabe : les ressources produites ont atteint une bonne couverture informationnelle et linguistique. L'approche indirecte par contribution active est testée depuis 8-9 mois sur l'instance arabe du jeu sérieux JeuxDeMots.
Type de document :
Thèse
Computer Science [cs]. Université Joseph-Fourier - Grenoble I, 2010. English


https://tel.archives-ouvertes.fr/tel-00583682
Contributeur : Mohammad Daoud <>
Soumis le : mercredi 6 avril 2011 - 12:00:05
Dernière modification le : mercredi 6 avril 2011 - 13:35:17
Document(s) archivé(s) le : jeudi 7 juillet 2011 - 02:48:04

Identifiants

  • HAL Id : tel-00583682, version 1

Collections

Citation

Mohammad Daoud. Usage of non-conventional resources and contributive methods to bridge the terminological gap between languages by developing multilingual "preterminologies". Computer Science [cs]. Université Joseph-Fourier - Grenoble I, 2010. English. <tel-00583682>

Exporter

Partager

Métriques

Consultations de
la notice

424

Téléchargements du document

1148