Accès sémantique aux bases de données documentaires. Techniques symboliques de traitement automatique du langage pour l'indexation thématique et l'extraction d'informations temporelles

Laurent Kevers

Thèse Année : 2011

Semantic access to documents databases. Natural language processing with symbolic techniques for thematic indexation and temporal information extraction

Accès sémantique aux bases de données documentaires. Techniques symboliques de traitement automatique du langage pour l'indexation thématique et l'extraction d'informations temporelles

(1)

Laurent Kevers

Fonction : Auteur
PersonId : 181777
IdHAL : laurent-kevers
ORCID : 0000-0001-5058-6706

Centre de traitement automatique du langage

Résumé

Within our information society and economy, access to the growing bulk of electronic documents is a major concern. Surprisingly, information retrieval tools often only work on a classical search scheme, based on words. But, as a matter of fact, the relation between words and concepts can not always be reduced to a single link. A concept can be named by several expressions (« unemployed person » and « job-seeker »), and conversely one word can sometimes depict more than one concept (« carrot » as a vegetable or in geology). To cope with this difficulty, it might be interesting to represent documents in a concepts space in place of a words space. In this thesis we are proposing 3 methods designed to complete the documents representation with semantic data : a (semi) automatic supervised classification method was set up to index documents, the specific processing of some information items, such as time, and finally a thematic and temporal indexing system that outlines interest and perspectives for applications within this multidimensional and semantic approach.

Dans le contexte actuel d'une société et d'une économie centrées sur l'information, l'accès à la masse grandissante de documents électroniques est devenu un enjeu capital. De nombreux outils de recherche d'informations se contentent cependant d'un scénario de recherche classique, basé sur les mots. Pourtant, la relation entre un concept et son expression ne se limite pas toujours à un lien unique. Ainsi, un concept peut souvent être désigné par plusieurs expressions (« chômeur » et « demandeur d'emploi »), et inversement, un mot peut aussi parfois désigner plusieurs concepts différents (« carotte » en tant que légume ou en géologie). Afin de gérer cette difficulté, il peut être intéressant de représenter les documents non plus dans un espace de mots, mais dans un espace de concepts. Dans cette thèse, nous proposons trois façons d'apporter des éléments de sens à la représentation des documents : une méthode de classification supervisée (semi-)automatique de documents, la prise en compte de manière particulière de certains éléments d'informations, comme le temps, et finalement un système d'indexation thématico-temporel qui montre l'intérêt, et les perspectives en termes applicatifs, de cette approche multidimensionnelle et sémantique de l'accès à l'information.

Mots clés

thematic indexing categorization temporal information extraction temporal adverbs multidimensional indexing

indexation thématique catégorisation extraction d'informations temporelles adverbes temporels indexation multidimensionnelle

Domaines

Linguistique Autre [cs.OH]

Fichier principal

kevers_phd_FINAL.pdf (4.41 Mo)

2011-0131_defensepublique.pdf (1.68 Mo)

Format : Autre

Laurent Kevers : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00568089

Soumis le : mardi 22 février 2011-16:04:45

Dernière modification le : vendredi 1 octobre 2021-09:54:07

Archivage à long terme le : lundi 23 mai 2011-03:13:41

Dates et versions

tel-00568089 , version 1 (22-02-2011)

Identifiants

HAL Id : tel-00568089 , version 1

Citer

Laurent Kevers. Accès sémantique aux bases de données documentaires. Techniques symboliques de traitement automatique du langage pour l'indexation thématique et l'extraction d'informations temporelles. Linguistique. Université Catholique de Louvain, 2011. Français. ⟨NNT : ⟩. ⟨tel-00568089⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

360 Consultations

948 Téléchargements

Semantic access to documents databases. Natural language processing with symbolic techniques for thematic indexation and temporal information extraction

Accès sémantique aux bases de données documentaires. Techniques symboliques de traitement automatique du langage pour l'indexation thématique et l'extraction d'informations temporelles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager