Exploration et modélisation de données peu ou pas structurées

Vincent Grollemund

Résumé

Supervised learning models are usually trained on data with limited constraints. Unfortunately, data are generally scarce, incomplete and biased in real-world use cases, which hampers efficient model design. Such data can and should still be leveraged to discover relevant patterns, glean insight and develop meaningful conclusions. In this thesis, we investigate an unsupervised learning approach to isolate minority samples encompassed within a larger population. Our review includes two different use cases: Amyotrophic Lateral Sclerosis prognosis and identification of potential innovation funding recipients. Despite differences in their purpose, these contexts face similar issues: poor data availability of partial and unrepresentative samples. In both cases, the aim is to detect samples from a minority population: patients with a poorer 1-year prognosis and companies that are more likely to be successful funding applicants. Data are projected into a lower-dimensional space using Uniform Manifold Approximation and Projection (UMAP), a nonlinear dimension reduction technique. Differences in data distributions are harnessed and used to isolate the target minority population, using Density Based Clustering of Applications with Noise (DBSCAN) and alpha shapes. Correlations between input and target variables become visible within the projection space and minority samples are isolated from the remaining data. As a result, in spite of poor data quality, we provide additional insight with regard to recently diagnosed patients and potential funding applicants.

Les modèles d'apprentissage supervisé sont généralement entraînés sur des données aux contraintes limitées. Malheureusement, les données sont souvent rares, incomplètes et biaisées dans de nombreux cas d’applications, et cela entrave la conception de modèles efficaces. De telles données peuvent et doivent néanmoins être exploitées, car elles demeurent des sources précieuses d’information. Elles permettent de découvrir des corrélations pertinentes et de parvenir à des conclusions significatives. Dans cette thèse, nous étudions une approche d'apprentissage non supervisé pour isoler des échantillons minoritaires compris à l’intérieur d’une population plus large. Notre étude intègre deux contextes applicatifs: le pronostic de la Sclérose Latérale Amyotrophique (SLA) et la recommandation aux entreprises de dispositifs publics de financement de l’innovation. Malgré des différences dans leur objectif, ces contextes sont confrontés à des problèmes similaires: une faible disponibilité des données associée à des échantillons non représentatifs et incomplets. Dans les deux cas, l'objectif est de détecter des échantillons d'une population minoritaire: les patients dont le pronostic à un an est défavorable et les sociétés qui ont plus de chances d'obtenir des financements. Les données sont projetées dans un espace bidimensionnel à l'aide de la méthode d’approximation et de projection de variété uniforme (UMAP), une technique de réduction de dimension non linéaire. Les différences de distribution des données sont exploitées de manière à isoler la population minoritaire cible, à l'aide du partitionnement spatial par densité (DBSCAN) et des formes alpha. Les corrélations entre les caractéristiques d'entrée et d’intérêt, que sont la survie à 1 an et l’obtention de financements, deviennent visibles dans l'espace de projection et les échantillons minoritaires sont isolés du reste des données. En dépit des contraintes sur les données, notre approche se révèle pertinente et informative au regard de patients récemment diagnostiqués avec la SLA et d'entreprises qui postulent pour un financement.

Data mining and modeling of poorly structured or unstructured data

Exploration et modélisation de données peu ou pas structurées

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager