Contribution à la valorisation des données textuelles libres dans le secteur de la santé

Angie Nguyen

Résumé

Recently, the healthcare industry has faced numerous challenges (epidemics management, demand volatility, care times condensation, etc.), resulting in a growing need for useful information to support decision-making. Furthermore, the majority of existing health data is available in the form of free text (clinical notes, messages on social networks, etc.). In this context, recent breakthroughs in natural language processing (NLP), especially language models based on deep learning, have raised opportunities to unlock this information and improve the global management of the healthcare sector. These technologies will allow for enhancing health databases, smoothing information flows between stakeholders, and improving multiple processes ranging from demand forecasting to epidemics management. Thus, this thesis focused on how to leverage the massively available unstructured textual data in the healthcare sector. First, two literature reviews identified opportunities and challenges of applying NLP to leverage available textual data and improve management processes. However, using these techniques comes with several challenges, including the high variability and implicit nature of natural language expressions or the scarcity of training and evaluation data. Therefore, a methodology using recent language models based on transformers has been developed to perform contextualized health information extraction (negations or suspicions of diseases, etc.) from various health-related texts, in the context of data scarcity in French. Finally, a second contribution developed a methodology to combine structured medical data with unstructured textual data from news media and validated it on two real cases in the pharmaceutical industry

Récemment, les systèmes de santé ont été confrontés à de nombreux défis (gestion d’épidémie,demande volatile, condensation des temps de prise en charge, etc.), conduisant `a un besoin croissantd’informations améliorant les processus décisionnels. Par ailleurs, une part importante des donnéesdu secteur de la santé sont disponibles sous la forme de textes écrits en langage naturel (notes cliniques, messages sur les réseaux sociaux, etc.). Dans ce contexte, les récentes percées dans le domaine du Traitement Automatique des Langues (TAL), obtenues notamment grâce aux modèles de langage basés sur de l’apprentissage profond, ont ouvert de nouvelles opportunités pour déverrouiller ces informations et ainsi améliorer la gestion globale du secteur de santé. Les apports de ces outils sont potentiellement multiples, puisqu’ils permettraient d’enrichir les entrepôts de données de santé, fluidifier les transmissions d’information entre les différents acteurs et améliorer les processus allant de la prévision de la demande au suivi épidémiologique. Ainsi, cette thèse s’est consacrée à traiter de la valorisation des données textuelles libres dans le secteur de la santé. Deux revues de la littérature ont d’abord permis d’identifier les opportunités et enjeux d’application du TAL pour valoriser les diverses données textuelles disponibles et améliorer les processus de gestion. Toutefois, l’utilisation de ces techniques s’accompagne de plusieurs difficultés, telles que la grande variabilité et la nature implicite des expressions en langage naturel, ou encore la frugalité des données d’entraînement et d’évaluation des modèles. Ainsi, une méthodologie utilisant les modèles de langage récents basés sur les Transformers a été développée pour effectuer de l’extraction d’information de santé contextualisée (négations ou suspicions de maladies, etc.) à partir de textes variés, et ce, dans un contexte de frugalité de données d’entraînement en français. Enfin, une seconde contribution couplant des données médicales structurées à des données textuelles non structurées issues des médias d’information a été développée et validée sur deux cas réels dans l’industrie pharmaceutique.

Contribution to data valuation free texts in the health sector

Contribution à la valorisation des données textuelles libres dans le secteur de la santé

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager