Descriptions définies et démonstratives : analyses de corpus pour la génération de textes

Hélène Manuélian 1
1 LANGUE ET DIALOGUE - Human-machine dialogue with a significant language component
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : La thèse porte sur la génération automatique de descriptions définies et démonstratives. Il s'agit d'établir les contraintes linguistiques qui régissent leur production, et d'identifier les connaissances non linguistiques qui entrent en jeu dans cette production. Les algorithmes existant traitent essentiellement la génération de descriptions définies lorsque leur référent est déjà connu et les pronoms. Notre objectif est de parvenir à la génération de descriptions définies référant à des entités nouvelles et de descriptions démonstratives. Pour y parvenir, nous avons étudié un corpus de 10 000 descriptions définies et démonstratives. Notre thèse s'articule autour de deux grandes parties. Dans la première partie, nous réalisons un état de l'art dans les trois domaines qui nous concernent et dans la seconde, nous présentons les résultats de notre étude, et les extensions des algorithmes que nous proposons. Dans le premier chapitre, nous exposons les données théoriques et empiriques connues sur la référence, les expressions référentielles en français, et en anglais. Nous concluons par une synthèse montrant les limites de ces analyses. Nous présentons dans le deuxième chapitre la problématique de la génération d'expressions référentielles, et les algorithmes existant. Nous présentons l'algorithme de Gardent et Striegnitz, et montrons en quoi il nous semble être le plus approprié pour les extensions que nous souhaitons réaliser. Le troisième chapitre présente les concepts liés la linguistique de corpus et au traitement de corpus électroniques. Nous terminons la première partie par une synthèse exposant comment se lient les problèmes posés par les trois domaines abordés. Le cinquième chapitre de notre thèse présente les travaux ralisés sur le corpus, des pré-traitements informatiques à l'extraction des résultats. Dans le sixième chapitre, nous exposons les résultats d'une étude approfondie des anaphores associatives annotées dans notre corpus, et une extension de l'algorithme de Gardent et Striegnitz. Le septième chapitre présente une étude des descriptions définies et démonstratives et une seconde extension de l'algorithme de Gardent et Striegnitz, en tenant compte de la notion d'informativité d'une expression référentielle. Le dernier chapitre présente les contraintes identifiées l'aide du corpus sur le choix du déterminant des descriptions, et nous montrons qu'elles sont à la fois syntaxiques et sémantiques.
Type de document :
Thèse
Linguistique. Université de Nancy 2, 2003. Français


https://tel.archives-ouvertes.fr/tel-00526602
Contributeur : Helene Manuelian <>
Soumis le : vendredi 15 octobre 2010 - 10:54:57
Dernière modification le : mardi 25 octobre 2016 - 16:59:59
Document(s) archivé(s) le : dimanche 16 janvier 2011 - 02:44:33

Identifiants

  • HAL Id : tel-00526602, version 1

Collections

Citation

Hélène Manuélian. Descriptions définies et démonstratives : analyses de corpus pour la génération de textes. Linguistique. Université de Nancy 2, 2003. Français. <tel-00526602>

Exporter

Partager

Métriques

Consultations de
la notice

223

Téléchargements du document

297