Dynamics in semantic annotation, a perspective of information access system - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2019

Dynamics in semantic annotation, a perspective of information access system

Dynamique de l’annotation sémantique, une perspective des systèmes d’accès à l’information

Résumé

The information is growing and evolving everyday and in every human activity. Documents of different modalities store our information. The dynamic nature of information is given by a flow of documents. The huge and ever-growing document collections opens the need for organizing, relating and searching for information in an efficient way. Although full-text search tools have been developed, people continue to categorize documents, often using automatic classification tools. These annotations categories can be considered as a semantic indexing: classifying newspaper articles or blog posts allows journalists or readers to quickly find documents that have been published in the past in relation to a given topic. However, the quality of an index based on semantic annotation often deteriorates with time due to the dynamics of the information it describes: some categories are misused or forgotten by indexers, others become obsolete or too general to be useful. Through this study we introduce a dynamic perspective of semantic annotation. This perspective considers the passage of time and the permanent flow of documents that makes the collections grow and their annotation systems to extend and evolve. We also bring a vision of the quality of annotations systems based on the notion of information access. Traditionally, the quality of the annotation is considered in terms of semantic adequacy between the contents of the documents and the annotation terms describe them. In our vision, the quality of annotation vocabulary depends on the amount and complexity of information to be navigated by a user while searching for a certain topic. To address the problem of the dynamics in semantic annotation, this work proposes a modular architecture for dynamic semantic annotation. This architecture models the activities involved in the semantic annotation process in abstract modules dedicated to the different tasks that users have to perform. As a case of study we took blogging annotation. We gathered a corpus containing up to 10 years of annotated blog posts with categories and tags and we analyzed the annotation habits. By testing automatic tag and category strategies, we measure the impact of the dynamics in the annotation system. We propose some strategies to control this impact, which helps to evaluate the obsolescence of examples. Finally we propose a framework relying on three quality metrics and an interactive method to recover the quality of an indexing system based on semantic annotation. The metrics are evaluated over time to observe the degradation in indexing quality. A series of studied examples are presented to observe the performance of the measures to guide the restructuring of the indexing annotation system.
A travers cette étude, se présente une perspective dynamique de l'annotation sémantique. Cette perspective considère le passage du temps et les flux permanents de documents qui font croître les collections et étendre leurs systèmes d'annotation. Nous apportons également une vision de la qualité des systèmes d'annotations basée sur la notion d'accès à l'information et de cohérence. Dans notre vision de la qualité, l'information de vocabulaire d'annotation est la complexité à parcourir par un utilisateur à la recherche d'un certain sujet.Pour répondre au problème de la dynamique dans l'annotation sémantique, cette thèse propose une architecture modulaire pour l'annotation sémantique dynamique. Cette architecture modélise les activités impliquées dans le processus d'annotation sémantique en modules abstraits avec des considérations particulières en fonction de la tâche spécifique.Comme cas d'étude, nous prenons l’annotation de blogs. Nous rassemblâmes un corpus contenant jusqu'à 10 ans de billets de blog annotés avec des catégories et des tags et analysé les habitudes d'annotation observées. Nous explorons la suggestion automatique de tags et de catégories afin de mesurer l'impact de la dynamique dans le système d'annotation. Certaines stratégies pour faire face à cet impact ont été évaluées pour caractériser l'importance de l'âge des exemples.Enfin, nous proposons un cadre de trois mesures de qualité et une méthode interactive pour récupérer la qualité d'un système d'indexation basé sur des annotations sémantiques appuyée par les métriques. Les mesures ont été évaluées au fil du temps pour observer la dégradation de la qualité de l'indexation. Une série d'exemples étudiés sont présentés pour observer la performance des mesures visant à guider la restructuration du système d'annotation de l'indexation.
Fichier principal
Vignette du fichier
edgalilee_th_2019_garrido.pdf (71.35 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-02899882 , version 1 (15-07-2020)
tel-02899882 , version 2 (15-07-2020)

Identifiants

  • HAL Id : tel-02899882 , version 1

Citer

Ivan Garrido Marquez. Dynamics in semantic annotation, a perspective of information access system. Data Structures and Algorithms [cs.DS]. Université Sorbonne Paris Cité, 2019. English. ⟨NNT : 2019USPCD008⟩. ⟨tel-02899882v1⟩
153 Consultations
4 Téléchargements

Partager

Gmail Facebook X LinkedIn More