Programmation différentiable à grande échelle pour les données relationnelles - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

A Differentiable Programming Approach for Optimization on Relational and Large Datasets

Programmation différentiable à grande échelle pour les données relationnelles

Résumé

This PhD thesis presents three contributions to the field of differentiable programming with a focus on relational data. Relational data is prevalent in industries such as healthcare and supply chain, where data is often organized in structured tables or databases. Traditional machine learning approaches struggle with handling relational data, while white box machine learning models are better suited but challenging to develop. Differentiable programming offers a potential solution by treating queries on relational databases as differentiable programs, enabling the development of white box machine learning models that can directly reason about relational data. This research’s primary objective is to explore the application of machine learning to relational data using differentiable programming techniques. The first contribution of the thesis introduces a differentiable layer into relational programming languages, both theoretically and practically. The Adsl programming language was created to perform differentiation and transcribe relational operations of a query. The domain-specific language Envision has been augmented with differentiable programming capabilities, allowing the development of models that leverage relational data in a native relational programming language environment. The second contribution develops a novel gradient estimator called GCE, designed for categorical features over represented in relational data. GCE is demonstrated to be useful on various categorical datasets and models and has been implemented for deep learning models. GCE is also integrated as the native gradient estimator in the differentiable programming layer of Envision, facilitated by the first contribution of this thesis. The third contribution develops a generalized gradient estimator called Stochastic Path Automatic Differentiation (SPAD), which derives its stochasticity from code decomposition. SPAD introduces the idea of backpropagating a fraction of the gradient to reduce memory consumption during parameter updates. The implementation of this gradient estimation approach is made possible by the design decisions during the differentiation of Adsl. This research has significant implications for industries relying on relational data, unlocking new insights and improving decision-making by applying white box machine learning models to relational data using differentiable programming techniques.
Cette thèse de doctorat présente trois contributions dans le domaine de la programmation différentiable axée sur les données relationnelles. Les données relationnelles sont courantes dans des secteurs tels que la santé et la logistique, où les données sont souvent organisées en tableaux structurés ou bases de données. Les approches traditionnelles de l’apprentissage automatique ont du mal à s’appliquer sur de telles données, tandis que les modèles d’apprentissage automatique de type boîte blanche sont plus adaptés mais également plus difficiles à développer. La programmation différentiable offre une solution en traitant les requêtes sur les bases de données relationnelles comme des programmes différentiables, permettant ainsi le développement de modèles d’apprentissage automatique de type boîte blanche qui peuvent travailler directement sur les données relationnelles. L’objectif principal de cette recherche est d’explorer l’application de l’apprentissage automatique aux données relationnelles en utilisant des techniques de programmation différentiable. La première contribution de la thèse introduit une couche différentiable dans les langages de programmation relationnelle, autant d’un point de vue théorique que d’un point de vue pratique. Le langage de programmation Adsl a été créé pour effectuer la différentiation et transcrire les opérations relationnelles d’une requête. Le langage Envision a été enrichi d’une couche de programmation différentiable, permettant le développement de modèles exploitant les données relationnelles dans un environnement de langage de programmation relationnelle natif. La deuxième contribution développe un estimateur de gradient appelé GCE, conçu pour les caractéristiques catégorielles surreprésentées dans les données relationnelles. GCE est démontré comme étant utile sur divers ensembles de données catégorielles et modèles, et a été implémenté pour les modèles d’apprentissage profond. GCE est intégré en tant qu’estimateur de gradient natif dans la couche de programmation différentiable d’Envision, facilité par la première contribution de cette thèse. La troisième contribution développe un estimateur de gradient généralisé appelé Stochastic Path Automatic Differentiation (SPAD), qui tire sa stochasticité de la décomposition du code. SPAD introduit l’idée de rétro-propager une fraction du gradient pour réduire la consommation de mémoire lors des mises à jour des paramètres. La mise en œuvre de cette approche d’estimation de gradient est rendue possible par les décisions de conception lors de la différentiation d’Adsl. Cette recherche a des implications significatives pour les industries reposant sur les données relationnelles, en débloquant de nouvelles perspectives et en améliorant la prise de décision en appliquant des modèles d’apprentissage automatique de type boîte blanche aux données relationnelles en utilisant des techniques de programmation différentiable.
Fichier principal
Vignette du fichier
paulpeseux.pdf (2.59 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04267827 , version 1 (02-11-2023)

Identifiants

  • HAL Id : tel-04267827 , version 1

Citer

Paul Peseux. Programmation différentiable à grande échelle pour les données relationnelles. Algorithme et structure de données [cs.DS]. Normandie Université, 2023. Français. ⟨NNT : 2023NORMR040⟩. ⟨tel-04267827⟩
52 Consultations
56 Téléchargements

Partager

Gmail Facebook X LinkedIn More