Semantic Snippets via Query-Biased Ranking of Linked Data Entities - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2016

Semantic Snippets via Query-Biased Ranking of Linked Data Entities

Snippets Sémantiques par un ordonnancement biaisé-requête d'entités de données liées

Mazen Alsarem

Résumé

In our knowledge-driven society, the acquisition and the transfer of knowledge play a principal role. Web search engines are somehow tools for knowledge acquisition and transfer from the web to the user. The search engine results page (SERP) consists mainly of a list of links and snippets (excerpts from the results). The snippets are used to express, as efficiently as possible, the way a web page may be relevant to the query. As an extension of the existing web, the semantic web or ``web 3.0`` is designed to convert the presently available web of unstructured documents into a web of data consumable by both human and machines. The resulting web of data and the current web of documents coexist and interconnect via multiple mechanisms, such as the embedded structured data, or the automatic annotation. In this thesis, we introduce a new interactive artifact for the SERP: the ``Semantic Snippet``. Semantic Snippets rely on the coexistence of the two webs to facilitate the transfer of knowledge to the user thanks to a semantic contextualization of the user's information need. It makes apparent the relationships between the information need and the most relevant entities present in the web page. The generation of semantic snippets is mainly based on the automatic annotation of the LOD's (Linking Open Data) entities in web pages. The annotated entities have different level of importance, usefulness and relevance. Even with state of the art solutions for the automatic annotations of LOD entities within web pages, there is still a lot of noise in the form of erroneous or off-topic annotations. Therefore, we propose a query-biased algorithm (LDRANK) for the ranking of these entities. LDRANK adopts a strategy based on the linear consensual combination of several sources of prior knowledge (any form of contextual knowledge, like the textual descriptions for the nodes of the graph) to modify a PageRank-like algorithm. For generating semantic snippets, we use LDRANK to find the more relevant entities in the web page. Then, we use a supervised learning algorithm to link each selected entity to excerpts from the web page that highlight the relationship between the entity and the original information need. In order to evaluate our semantic snippets, we integrate them in ENsEN (Enhanced Search Engine), a software system that enhances the SERP with semantic snippets. Finally, we use crowdsourcing to evaluate the usefulness and the efficiency of ENsEN.
Dans notre société fondée sur la connaissance, l’acquisition et le transfert de connais- sances jouent un rôle principal. Les moteurs de recherche sur le Web sont en quelque sorte des outils d’acquisition et de transfert des connaissances du Web à l’utilisateur. La page de résultats d’un moteur de recherche (Search Engine Results Page - SERP) se com- pose principalement d’une liste de liens et de snippets (extraits à partir des résultats). Les snippets sont utilisés pour exprimer, aussi efficacement que possible, la façon dont une page Web peut être pertinente pour la requête. Le Web sémantique ou “Web 3.0” est conçu pour transformer le Web de documents non structurés en un Web de données exploitable à la fois par les machines et les humains. Le Web de données obtenu et le Web de documents actuel coexistent et sont interconnectés via de multiples mécanismes, tels que les données structurées integrées dan les pages Web, ou l’annotation automatique. Dans cette thèse, nous introduisons un nouvel artefact interactif pour le SERP: le “Snip- pet Sémantique”. Les snippets sémantiques s’appuient sur la coexistence des deux Webs pour faciliter le transfert des connaissances aux utilisateurs grâce à une contextualisa- tion sémantique du besoin d’information de l’utilisateur. Ils font apparaı̂tre les relations entre le besoin d’information et les entités les plus pertinentes présentes dans la page Web. La génération des snippets sémantiques repose principalement sur l’annotation automa- tique des entités de LOD dans les pages Web. Les entités annotées ont des niveaux d’importance, d’utilité et de pertinence différents. Les solutions de l’état de l’art pour l’annotation automatique des entités LOD dans les pages Web génèrent encore beau- coup de bruit sous la forme d’annotations erronées ou hors sujet. Par conséquent, nous proposons un algorithme biaisé-requête (LDRANK) pour l’ordonnancement de ces en- tités. LDRANK adopte une stratégie basée sur la combinaison consensuelle linéaire de plusieurs sources de connaissances a priori (toute forme de connaissances contextuelles, comme les descriptions textuelles des noeuds du graphe) pour modifier un algorithme de type PageRank. Pour générer des snippets sémantiques, nous utilisons LDRANK pour trouver les entités les plus pertinentes dans la page Web. Ensuite, nous employons un al- gorithme d’apprentissage supervisé pour lier chaque entité sélectionnée à des extraits de la page Web qui mettent en évidence la relation entre l’entité et le besoin d’information original. Afin d’évaluer nos snippets sémantiques, nous les intégrons dans ENsEN (Enhanced Search Engine), un système logiciel qui améliore le SERP avec des snippets sémantiques. Enfin, nous utilisons le crowdsourcing pour évaluer l’utilité et l’efficacité de ENsEN.
Fichier principal
Vignette du fichier
Thesis.pdf (7.9 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01327769 , version 1 (13-06-2016)
tel-01327769 , version 2 (28-09-2017)

Identifiants

  • HAL Id : tel-01327769 , version 1

Citer

Mazen Alsarem. Semantic Snippets via Query-Biased Ranking of Linked Data Entities. Information Retrieval [cs.IR]. INSA de Lyon; UNIVERSITÄT PASSAU, 2016. English. ⟨NNT : ⟩. ⟨tel-01327769v1⟩
483 Consultations
686 Téléchargements

Partager

Gmail Facebook X LinkedIn More