Compression automatique ou semi-automatique de textes par élagage des constituants effaçables : une approche interactive et indépendante des corpus - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2007

Automatic or semi-automatic text compression through removable constituent pruning: an interactive and corpus-free approach

Compression automatique ou semi-automatique de textes par élagage des constituants effaçables : une approche interactive et indépendante des corpus

Résumé

This research belongs to the Natural Language Processing field and more specifically focuses on text summarization.
The originality of this thesis leads in tackling a type of summarization that has not been studied much, text compression using an unsupervised method.
This work presents an interactive and incremental system for syntagmatic tree pruning, while preserving the syntactic coherence and the main informational contents.
On the theoretical side, this work is based on the Government and Biding theory of Noam Chomsky and more precisely on the formal representation of the X-bar theory, to aims at a strong foundation for a computational model compatible with syntactic compression of sentences.
This work led to an operational software, named COLIN, which proposes two modalities: an automated compression and an assistance to summarization in a semi-automated form, directed through a tight interaction with the user.
This software has been evaluated thanks to a quite complex protocol using 25 volunteers.
Experiment results show that 1) the notion of reference abstract which is the basic of classical evaluation is at least questionable, 2) semi-automated compression has been given a high value by users 3) fully automated compressions also get honourable satisfaction levels.
With a compression ratio of over 40% for all genres of text, COLIN offers an appreciable support as an assistance to text compression, without resorting on a learning corpus, and with a user-friendly interface.
Le travail s'inscrit dans le domaine du traitement automatique du langage naturel et traite plus spécifiquement d'une application de ce dernier au résumé automatique de textes.
L'originalité de la thèse consiste à s'attaquer à une variété fort peu explorée, la compression de textes, par une technique non supervisée.
Ce travail propose un système incrémental et interactif d'élagage de l'arbre syntagmatique des phrases, tout en préservant la cohérence syntaxique et la conservation du contenu informationnel important.
Sur le plan théorique, le travail s'appuie sur la théorie du gouvernement de Noam Chomsky et plus particulièrement sur la représentation formelle de la théorie X-barre pour aboutir à un fondement théorique important pour un modèle computationnel compatible avec la compression syntaxique de phrases.
Le travail a donné lieu a un logiciel opérationnel, nommé COLIN, qui propose deux modalités : une compression automatique, et une aide au résumé sous forme semi-automatique, dirigée par l'interaction avec l'utilisateur.
Le logiciel a été évalué grâce à un protocole complexe par 25 utilisateurs bénévoles.
Les résultats de l'expérience montrent que 1) la notion de résumé de référence qui sert aux évaluations classiques est discutable 2) les compressions semi-automatiques ont été fortement appréciées 3) les compressions totalement automatiques ont également obtenu de bons scores de satisfaction.
À un taux de compression supérieur à 40% tous genres confondus, COLIN fournit un support appréciable en tant qu'aide à la compression de textes, ne dépend d'aucun corpus d'apprentissage, et présente une interface convivial.
Fichier principal
Vignette du fichier
these-yousfi.pdf (2.85 Mo) Télécharger le fichier
presentation-these-yousfi.pdf (2.07 Mo) Télécharger le fichier
Format : Autre

Dates et versions

tel-00185367 , version 1 (05-11-2007)
tel-00185367 , version 2 (01-03-2008)
tel-00185367 , version 3 (02-06-2008)

Identifiants

  • HAL Id : tel-00185367 , version 3

Citer

Mehdi Yousfi-Monod. Compression automatique ou semi-automatique de textes par élagage des constituants effaçables : une approche interactive et indépendante des corpus. Informatique [cs]. Université Montpellier II - Sciences et Techniques du Languedoc, 2007. Français. ⟨NNT : ⟩. ⟨tel-00185367v3⟩
235 Consultations
2313 Téléchargements

Partager

Gmail Facebook X LinkedIn More