Impact des liens hypertextes sur la précision en recherche d'information. - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2008

Impact des liens hypertextes sur la précision en recherche d'information.

Idir Chibane
  • Fonction : Auteur

Résumé

The explosive growth of the web has led to surge of research activity in the area of information retrieval (IR) on the World Wide Web. Ranking has always been an important component of any information retrieval system (IRS). In the case of web search its importance becomes critical. Due to the size of the Web, it is imperative to have a ranking function that captures the user needs. The aim of the system is therefore to retrieve the set of documents which are most relevant to a query. To this end the Web offers a rich context of information which is expressed via the links. We are interested in the relevance propagation algorithms for hypertext document collections, specially, how to take advantage of link information and neighbourhood of documents in order to improve information retrieval. In this thesis, we propose to model a new matching function for an information retrieval system using both the content and the neighbourhood of a web page. The neighbourhood of a web page is dynamically computed with the number of query terms that the pages are composed of. This function propagates scores from sources pages to destination pages in relation with the keywords of a query. Indeed, we explore the use of web page topic segmentation algorithm based on visual criteria like the horizontal lines, colors, and content presentation of the page like headings, paragraph and tables tags in order to separate possible segments of different topics and investigate how to take advantage of block-level evidence to improve retrieval performance in the web context. We experienced our system over the two test collections WT10g and GOV. We conclude that our model provides better results in comparison with the baseline based-on text content only and those based-on link analysis (PageRank, HITS, relevance propagation).
Le Web est caractérisé par un volume d'information exponentiellement croissant ainsi que par l'hétérogénéité de ses ressources. Face au très grand nombre de réponses fournies par un moteur de recherche, il s'agit de fournir des réponses pertinentes parmi les premières réponses. Nous nous intéressons aux algorithmes de propagation de pertinence pour des corpus de documents hypertextes, et en particulier à l'analyse des liens afin d'exploiter l'information véhiculée par ses liens et par le voisinage des documents Web. Cependant, les différentes techniques proposées dépendent de paramètres statiques, fixés à priori selon le type de collection et l'organisation des pages Web. Dans cette thèse, nous proposons une nouvelle méthode de propagation de pertinence en utilisant des paramètres calculés dynamiquement, indépendamment de la collection utilisée. En effet, nous proposons de modéliser une fonction de correspondance d'un système de recherche d'information en prenant en compte à la fois le contenu d'un document et le voisinage de ce document. Ce voisinage est calculé dynamiquement en pondérant les liens hypertextes reliant les documents en fonction du nombre de termes distincts de la requête contenus dans ces documents. Pour traiter l'hétérogénéité des documents Web, nous modélisons les ressources Web à différents niveaux de granularité (site, page, bloc) afin de prendre en compte les différents thèmes contenus dans un même document. Nous proposons aussi une méthode de segmentation thématique des pages Web en utilisant des critères visuels et de représentation du contenu des pages afin d'extraire des blocs thématiques qui seront utilisés pour améliorer les performances de la recherche d'information. Nous avons expérimenté notre système sur deux collections de test WT10g et GOV. Nous concluons que notre modèle fournit de bons résultats par rapport aux algorithmes classiques reposant sur le contenu seul d'un document et ceux reposant sur l'analyse des liens (PageRank, HITS, propagation de pertinence).
Fichier principal
Vignette du fichier
these_idir.pdf (1.57 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00463066 , version 1 (11-03-2010)

Identifiants

  • HAL Id : tel-00463066 , version 1

Citer

Idir Chibane. Impact des liens hypertextes sur la précision en recherche d'information.. Autre [cs.OH]. Université Paris Sud - Paris XI, 2008. Français. ⟨NNT : ⟩. ⟨tel-00463066⟩

Collections

SUPELEC
137 Consultations
629 Téléchargements

Partager

Gmail Facebook X LinkedIn More