Antelope, une plate-forme de TAL permettant d'extraire les sens du texte : théorie et applications de l'interface syntaxe-sémantique

Résumé : Créer rapidement un analyseur sémantique dédié à une tâche particulière n'est pas une tâche aisée. En effet, composants d'analyse et ressources linguistiques sont souvent définis avec des formats incompatibles entre eux, ce qui en rend l'assemblage complexe. Nous souhaitons apporter une réponse opérationnelle à ce problème avec la plate-forme de traitement linguistique Antelope, dont cette thèse décrit les principes de conception et de réalisation. En partie basée sur la Théorie Sens-Texte (TST), Antelope permet une analyse syntaxique et sémantique de corpus de volume important ; son objectif est de " rendre calculable " du texte tout-venant : avis de consommateurs, textes encyclopédiques, documents RH, articles de presse... Pour cela, Antelope intègre (i) plusieurs composants prêts à l'emploi, couvrant les principales tâches de TAL, qui interagissent au sein d'un modèle de données linguistiques unifié ; (ii) un lexique sémantique multilingue à large couverture constitué à partir de différentes sources. Un effort d'intégration permet d'offrir une plate-forme robuste et homogène ; l'ensemble constitue une interface syntaxe-sémantique opérationnelle. La thèse présente la plate-forme et la compare à d'autres projets de référence ; elle souligne les bonnes pratiques à prendre en termes d'architecture logicielle pour qu'un tel ensemble complexe reste maintenable ; elle introduit aussi une démarche semi-supervisée d'acquisition de connaissances à large échelle.
Type de document :
Thèse
Informatique et langage [cs.CL]. Université Paris-Diderot - Paris VII, 2012. Français. 〈NNT : PARVII 9545914/2012201101111〉
Liste complète des métadonnées


https://tel.archives-ouvertes.fr/tel-00803531
Contributeur : François-Régis Chaumartin <>
Soumis le : vendredi 22 mars 2013 - 10:58:43
Dernière modification le : vendredi 25 mai 2018 - 12:02:05
Document(s) archivé(s) le : dimanche 23 juin 2013 - 04:00:38

Identifiants

  • HAL Id : tel-00803531, version 1

Collections

Citation

François-Régis Chaumartin. Antelope, une plate-forme de TAL permettant d'extraire les sens du texte : théorie et applications de l'interface syntaxe-sémantique. Informatique et langage [cs.CL]. Université Paris-Diderot - Paris VII, 2012. Français. 〈NNT : PARVII 9545914/2012201101111〉. 〈tel-00803531〉

Partager

Métriques

Consultations de la notice

1035

Téléchargements de fichiers

5569