Analyse automatique de structures thématiques discursives - Application à la recherche d'information - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2006

Automatic analysis of thematic discursive structures - Application seeking information

Analyse automatique de structures thématiques discursives - Application à la recherche d'information

Résumé

This PhD thesis belongs to the Natural Language Processing (NLP) field, and relates to the automated, semantic analysis of discourse structure. More precisely, we address the issue of thematic analysis, which aims at studying the structure of texts with respect to the organisation of their informational content. This task is of particular importance for Information Retrieval, which constitutes the primary application of our work. The concept of " theme " being particularly complex but scarcely studied for itself in the information retrieval literature, the first part of our dissertation is devoted to a large bibliographical study about the notions of theme, topic, subject, and aboutness, within the linguistics, information science and NLP fields. We draw from this study a definition of the theme as a discursive, semantic and structured object.We propose several models and processes, devoted firstly to the semantic analysis of geographical documents, and secondly to the automatic analysis of temporal discourse frames in the sense of Michel Charolles. We generalise this work introducing the notions of composite topic and semantic axis. The last part is devoted to the LinguaStream platform, an integrated experimentation environment that we designed to ease the elaboration of operational linguistic models, and that lead us to propose some original methodological principles.
Cette thèse s'inscrit dans le domaine du traitement automatique des langues, et concerne l'analyse sémantique de la structure du discours. Nous nous attachons plus particulièrement au problème de l'analyse thématique, qui vise l'étude de la structure des textes selon des critères relatifs à la répartition de leur contenu informationnel. Cette tâche revêt une importance capitale dans la perspective de l'accès assisté à l'information, qui constitue notre principale visée applicative. Le concept même de "thème" étant à la fois complexe et assez rarement considéré en tant qu'objet d'étude dans le domaine de la recherche d'information, la première partie du mémoire est consacrée à une vaste étude bibliographique autour des notions de thème, de topique, de sujet ou encore d'à propos, tant en linguistique qu'en sciences de l'information ou en traitement des langues. Nous en dégageons les lignes de force qui fondent notre approche du thème comme objet discursif, sémantique et structuré. Nous proposons sur cette base différents modèles et procédés s'attachant d'abord au traitement sémantique des documents géographiques, puis à l'analyse automatique des cadres de discours spatio-temporels au sens de Michel Charolles. Nous généralisons ces travaux en introduisant les notions de thème discursif composite et d'axe sémantique. Nous terminons en présentant LinguaStream, environnement d'expérimentation intégré que nous avons conçu pour faciliter l'élaboration de modèles linguistiques opérationnels, et qui nous conduit à proposer des principes méthodologiques originaux.
Fichier principal
Vignette du fichier
these-bilhaut.pdf (4.67 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00258766 , version 1 (25-02-2008)

Identifiants

  • HAL Id : tel-00258766 , version 1

Citer

Frédérik Bilhaut. Analyse automatique de structures thématiques discursives - Application à la recherche d'information. Autre [cs.OH]. Université de Caen, 2006. Français. ⟨NNT : ⟩. ⟨tel-00258766⟩
392 Consultations
1281 Téléchargements

Partager

Gmail Facebook X LinkedIn More