Extraction d'information `a partir de documents Web multilingues : une approche d'analyses structurelles

Tuan Dang Nguyen

Thèse Année : 2006

Extraction d'information `a partir de documents Web multilingues : une approche d'analyses structurelles

(1)

Tuan Dang Nguyen

Fonction : Auteur

Groupe de Recherche en Informatique, Image et Instrumentation de Caen

Résumé

MultilingualWeb Document (MWD) processing has become one of the major interests of research and development in the area of information retrieval. Therefore, we observed that the structure of the multilingual resources has not been enough explored in most of the research works in this area. We consider that links structure embed crucial information for both hyperdocument retrieving and mining process. In this context, we wonder to remind that each Web site is considered as a hyper-document that contains a set of Web documents (pages, screen, messages) which can be explored through the links paths. Therefore, detecting the dominant languages, in a Web Site, could be done in a different ways. The framework of this experimental research thesis is structures analysis for information extraction from a great number of heterogeneous structured or semi-structured electronic documents (essentially the Web document). It covers the following aspects : enumerating the dominants languages, setting-up (virtual) frontiers between those languages, enabling further processing, recognizing the dominants languages.

Les ressources d'information multilingues sur le Web sont devenues de plus en plus des objets d'études importantes pour différents domaines intervenant au traitement de l'information. Néanmoins, nous constatons que la structure des ressources multilingues est très peu explorée par rapport à l'abondance des méthodes de traitement automatique des langues naturelles. Dans cette thèse, nous abordons l'aspect multilinguisme dans un contexte de catégorisation des sites Web multilingues. Nous apportons quelques connaissances expérimentales portant sur la représentation de documents multilingues, la modélisation des données en une structure homogène, la qualité de la recherche d'information dans un contexte multilingues et enfin sur les notions de frontière et de centre de gravité pour départager des langues dominantes sans puiser dans des connaissances linguistiques.

Mots clés

Apprentissage automatique Catégorisation Classication Extraction<br />d'information Fouille de textes Fouille de Web Multilinguisme

Domaines

Autre [cs.OH]

Fichier principal

memoire_tuan_dang.pdf (1.21 Mo)

HAL System : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00258948

Soumis le : mardi 26 février 2008-10:31:03

Dernière modification le : mercredi 20 mars 2024-16:20:04

Archivage à long terme le : jeudi 20 mai 2010-18:39:07

Dates et versions

tel-00258948 , version 1 (26-02-2008)

Identifiants

HAL Id : tel-00258948 , version 1

Citer

Tuan Dang Nguyen. Extraction d'information `a partir de documents Web multilingues : une approche d'analyses structurelles. Autre [cs.OH]. Université de Caen, 2006. Français. ⟨NNT : ⟩. ⟨tel-00258948⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS GREYC COMUE-NORMANDIE THESES-NU ENSICAEN UNICAEN

217 Consultations

1209 Téléchargements

Extraction d'information `a partir de documents Web multilingues : une approche d'analyses structurelles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager