Constitution d'une ressource sémantique arabe à partir d'un corpus multilingue aligné

Résumé : Cette thèse vise à la mise en œuvre et à l'évaluation de techniques d'extraction de relations sémantiques à partir d'un corpus multilingue aligné. Ces relations seront extraites par transitivité de l'équivalence traductionnelle, deux lexèmes possédant les mêmes équivalents dans une langue cible étant susceptibles de partager un même sens. D'abord, nos observations porteront sur la comparaison sémantique d'équivalents traductionnels dans des corpus multilingues alignés. A partir des équivalences, nous tâcherons d'extraire des "cliques", ou sous-graphes maximaux complets connexes, dont toutes les unités sont en interrelation, du fait d'une probable intersection sémantique. Ces cliques présentent l'intérêt de renseigner à la fois sur la synonymie et la polysémie des unités, et d'apporter une forme de désambiguïsation sémantique. Elles seront créées à partir de l'extraction automatique de correspondances lexicales, basée sur l'observation des occurrences et cooccurrences en corpus. Le recours à des techniques de lemmatisation sera envisagé. Ensuite nous tâcherons de relier ces cliques avec un lexique sémantique (de type Wordnet) afin d'évaluer la possibilité de récupérer pour les unités arabes des relations sémantiques définies pour des unités en anglais ou en français. Ces relations permettraient de construire automatiquement un réseau utile pour certaines applications de traitement de la langue arabe, comme les moteurs de question-réponse, la traduction automatique, les systèmes d'alignement, la recherche d'information, etc.
Type de document :
Thèse
Linguistique. Université de Grenoble, 2012. Français. <NNT : 2012GRENL003>
Liste complète des métadonnées


https://tel.archives-ouvertes.fr/tel-00836764
Contributeur : Abes Star <>
Soumis le : vendredi 21 juin 2013 - 14:44:10
Dernière modification le : jeudi 11 juin 2015 - 04:07:20
Document(s) archivé(s) le : dimanche 22 septembre 2013 - 04:09:03

Fichier

18576_ABDULHAY_2012_archivage....
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-00836764, version 1

Collections

Citation

Authoul Abdulhay. Constitution d'une ressource sémantique arabe à partir d'un corpus multilingue aligné. Linguistique. Université de Grenoble, 2012. Français. <NNT : 2012GRENL003>. <tel-00836764>

Partager

Métriques

Consultations de
la notice

811

Téléchargements du document

2254