Analyse et indexation de textes scientifiques - TEL - Thèses en ligne Access content directly
Habilitation À Diriger Des Recherches Year : 2023

Analysing and indexing scientific texts

Analyse et indexation de textes scientifiques

Abstract

The work presented in this "Habilitation à Diriger des Recherches" (Accreditation to Supervise Research) focuses on the analysis and indexing of scientific texts and lies at the intersection of two research themes: Natural Language Processing (NLP), which involves the analysis, understanding, and generation of natural language, and Information Retrieval (IR), which studies ways to retrieve information from a collection of documents. We are interested in the question of scholarly document retrieval, which involves searching for documents in the scientific literature (e.g., articles, books, theses) related to a specific subject of study. More specifically, our research aims to enhance the metadata associated with documents to improve their accessibility and dissemination. Our work focuses on the development of automated methods for keyword generation, which are characterized by the unique utilization of graph-based techniques and node ranking algorithms. We delve into the issue of indirectly evaluating automatically generated keywords through application-specific tasks and their utilization in search engines and academic recommendation systems. We present our efforts into constructing linguistic resources, developing software tools, and their dissemination within the scientific community. Finally, we conclude with some prospective insights into keyword indexing and, more broadly, the emerging research at the intersection of NLP and IR themes.
Les travaux présentés dans cette habilitation à diriger des recherches (HDR) ont pour objet l'analyse et l'indexation des textes scientifiques, et se situent à la croisée de deux thématiques de recherche : celle du Traitement Automatique des Langues (TAL) qui concerne l'analyse, la compréhension et la production de langage naturel, et celle de la Recherche d'Information (RI) qui étudie la manière de retrouver des informations dans une collection de documents. Nous nous intéressons à la problématique de la recherche bibliographique, c'est-à-dire la recherche de documents dans la littérature scientifique (e.g. articles, ouvrages, thèses) en rapport avec un sujet d'étude, et plus particulièrement à l'enrichissement des métadonnées associées aux documents pour en améliorer l'accessibilité et la diffusion. Nos travaux concernent le développement de méthodes automatisées de génération de mots-clés dont la singularité réside dans l'utilisation de méthodes de graphes et d'algorithmes d'ordonnancement de sommets. Nous nous penchons sur la problématique de l'évaluation indirecte des mots-clés générés au travers de tâches applicatives et de leur exploitation dans les moteurs de recherche et de recommandation académique. Nous présentons les travaux que nous avons menés dans la construction de ressources langagières, le développement d'outils logiciels et leur valorisation dans la communauté scientifique. Nous terminons par quelques réflexions prospectives sur l'indexation par mots-clés et plus généralement sur les travaux de recherche émergeant de l'intersection des thématiques du TAL et de la RI.
Fichier principal
Vignette du fichier
boudin-hdr-manuscrit.v4.2.pdf (1.8 Mo) Télécharger le fichier
Origin : Files produced by the author(s)
Licence : CC BY NC - Attribution - NonCommercial

Dates and versions

tel-04137160 , version 1 (22-06-2023)

Licence

Attribution - NonCommercial

Identifiers

  • HAL Id : tel-04137160 , version 1

Cite

Florian Boudin. Analyse et indexation de textes scientifiques. Informatique [cs]. Nantes Université, 2023. ⟨tel-04137160⟩
148 View
133 Download

Share

Gmail Facebook X LinkedIn More