Segmentation thématique de texte linéaire et non-supervisée :<br>Détection active et passive des frontières thématiques en Français - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2008

Segmentation thématique de texte linéaire et non-supervisée :
Détection active et passive des frontières thématiques en Français

Résumé

This research belongs to the Natural Language Processing (NLP) field and more specifically focuses on topic text segmentation. The originality of this thesis consists in integrating to an unsupervised topic text segmentation method syntactic, semantic and stylistic information. This work present a linear approach of topic text segmentation based on a vectorial representation of the sentence coming from a deep morpho-syntactic and semantic analysis. This representation is then used to compute distance between potential topic segment while integrating stylistic information. During this research an application has been developed, this application allows users to test the approach various parameters, but also some others methods that have been tested during this research. Our model has been evaluated using an automatic evaluation and a manual evaluation. Our manual evaluation leas us to develop a specific evaluation protocol for the task based on precise parameters. In both automatic and manual evaluation our results as good and sometimes even better than some of the most popular algorithms.
Ce travail s'inscrit dans le domaine du traitement automatique du langage naturel et traite plus spéci?quement de l'application de ce dernier à la segmentation thématique de texte. L'originalité de cette thèse consiste à intégrer dans une méthode non-supervisée de segmentation thématique de texte de l'information syntaxique, sémantique et stylistique. Ce travail propose une approche linéaire de la segmentation thématique s'appuyant sur une représentation vectorielle issue de l'analyse morpho-syntaxique et sémantique de la phrase. Cette représentation est ensuite utilisée pour calculer des distances entre segments thématiques potentiels en intégrant de l'information stylistique. Ce travail a donné lieu au développement d'une application qui permet de tester les di?érents paramètre de notre modèle, mais qui propose également d'autres approches testées dans ce travail. Notre modèle a été évaluer de deux manières di?érentes, une évaluation automatique sur la base de textes annotés et une évaluation manuelle. Notre évaluation manuelle a donné lieu à la dé?nition d'un protocole d'évaluation s'appuyant sur des critères précis. Dans les deux cas, les résultats de notre évaluation ont été au niveau, voir même au dessus, des performances des algorithmes les plus populaires de la littérature.

Domaines

Autre [cs.OH]
Fichier principal
Vignette du fichier
These.pdf (2.7 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00364848 , version 1 (27-02-2009)

Identifiants

  • HAL Id : tel-00364848 , version 1

Citer

Alexandre Labadié. Segmentation thématique de texte linéaire et non-supervisée :
Détection active et passive des frontières thématiques en Français. Autre [cs.OH]. Université Montpellier II - Sciences et Techniques du Languedoc, 2008. Français. ⟨NNT : ⟩. ⟨tel-00364848⟩
281 Consultations
2541 Téléchargements

Partager

Gmail Facebook X LinkedIn More