Extraction d'information `a partir de documents Web multilingues : une approche d'analyses structurelles - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2006

Extraction d'information `a partir de documents Web multilingues : une approche d'analyses structurelles

Résumé

MultilingualWeb Document (MWD) processing has become one of the major interests of research and development in the area of information retrieval. Therefore, we observed that the structure of the multilingual resources has not been enough explored in most of the research works in this area. We consider that links structure embed crucial information for both hyperdocument retrieving and mining process. In this context, we wonder to remind that each Web site is considered as a hyper-document that contains a set of Web documents (pages, screen, messages) which can be explored through the links paths. Therefore, detecting the dominant languages, in a Web Site, could be done in a different ways. The framework of this experimental research thesis is structures analysis for information extraction from a great number of heterogeneous structured or semi-structured electronic documents (essentially the Web document). It covers the following aspects : enumerating the dominants languages, setting-up (virtual) frontiers between those languages, enabling further processing, recognizing the dominants languages.
Les ressources d'information multilingues sur le Web sont devenues de plus en plus des objets d'études importantes pour différents domaines intervenant au traitement de l'information. Néanmoins, nous constatons que la structure des ressources multilingues est très peu explorée par rapport à l'abondance des méthodes de traitement automatique des langues naturelles. Dans cette thèse, nous abordons l'aspect multilinguisme dans un contexte de catégorisation des sites Web multilingues. Nous apportons quelques connaissances expérimentales portant sur la représentation de documents multilingues, la modélisation des données en une structure homogène, la qualité de la recherche d'information dans un contexte multilingues et enfin sur les notions de frontière et de centre de gravité pour départager des langues dominantes sans puiser dans des connaissances linguistiques.
Fichier principal
Vignette du fichier
memoire_tuan_dang.pdf (1.21 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00258948 , version 1 (26-02-2008)

Identifiants

  • HAL Id : tel-00258948 , version 1

Citer

Tuan Dang Nguyen. Extraction d'information `a partir de documents Web multilingues : une approche d'analyses structurelles. Autre [cs.OH]. Université de Caen, 2006. Français. ⟨NNT : ⟩. ⟨tel-00258948⟩
217 Consultations
1209 Téléchargements

Partager

Gmail Facebook X LinkedIn More