Some contributions to decision-making problems

Frédéric Logé

Résumé

This thesis, motivated by applications in the industrial and health sectors, is a collection of studies on different decision problems.In the first part, we focus on single-step decision-making problems where a predictive model is used upstream of the decision-making, and where explicit feedback is received. We propose to leave the task of defining the loss function associated with the predictive model to the end-user, in order to encode the real cost of using a forecast to make a decision. As an algorithmic approach, we consider decision trees, optimized with the adjusted loss function, and function approximation methods, similar to Q-value function approximation in reinforcement learning, in case where only the immediate reward is of interest. Three applications are studied: the calibration of an alarm system to fight against medical wandering; the problem of nomination in an electricity market, from the point of view of a renewable energy supplier; the optimization of production in the uncertainty of customer demand.In the second part, we focus on two specific problems of sequential decision-making, which we address using a Markov decision-making framework and reinforcement learning algorithms. In the first application, we try to optimize meal timing and insulin management for people with type I diabetes who rely on self-injections. To do so, we rely on a patient simulator, which is based on medical knowledge of the interaction between glucose and insulin and on physiological parameters specific to the patients. In the second application, we try to build an adaptive predictive questionnaire for smooth interactions with users. For binary data, the questionnaire looks like a decision tree, optimized in a bottom-up way. For non-binary data, this new questionnaire only asks questions that have already been asked, remembers previously observed values, and exploits them fully once they arrive in a terminal node, where a specific prediction function is available.In our final section, we look at three decision processes that, by construction, do not require the agent to explore the environment. For example, we consider a system whose dynamics are sufficiently stochastic that, whatever our action, we explore the state space, while having some influence through our actions. We also consider a system where some actions are randomly unavailable depending on the epochs. In addition to the theoretical results found, this part emphasizes the importance of focusing the exploration where it is needed.

Cette thèse, motivée par des applications des secteurs de l'industrie et de la santé, est un recueil d'études sur différents problèmes de décision.Dans la première partie, nous nous concentrons sur des problèmes de prise de décision en une seule étape, où un modèle prédictif est utilisé en amont de la prise de décision, et où un retour d'information explicite est reçu. Nous proposons de laisser à l'utilisateur final la tâche de définir la fonction de perte associée au modèle prédictif, de façon à encoder le coût réel de l'utilisation d'une prévision pour prendre une décision. Comme approche algorithmique, nous considérons les arbres de décisions, optimisés avec la fonction de perte ajustée, et des méthodes d'approximation de fonction, liée à l'apprentissage des Q-valeurs dans l'apprentissage par renforcement, dans le cas où seule la récompense immédiate est d'intérêt. Trois applications sont étudiées : le calibrage d'un système d'alarme pour lutter contre l'errance médicale ; le problème de la nomination sur un marché de l'électricité, du point de vue d'un fournisseur d'énergies renouvelables ; l'optimisation de la production dans l'incertitude de la demande des clients.Dans la deuxième partie, nous nous intéressons essentiellement à deux problèmes spécifiques de prise de décision séquentielle, que nous abordons à l'aide d'un cadre de processus décisionnel de Markov et d'algorithmes d'apprentissage par renforcement. Dans la première application, nous essayons d'optimiser les moment de repas et la gestion de l'insuline pour les personnes souffrant de diabète de type I et qui comptent sur les auto-injections. Pour ce faire, nous nous appuyons sur un simulateur de patient, lequel est basé sur la connaissance médicale de l'interaction entre glucose et insuline et sur des paramètres physiologiques propres aux patients. Dans la seconde application, nous essayons de construire un questionnaire prédictif adaptatif pour des interactions lisses avec les utilisateurs. Pour des données binaires, le questionnaire ressemble à un arbre de décision, optimisé de façon bottom-up. Pour des données non-binaires, ce nouveau questionnaire ne redemande des questions déjà posées, se souvient des valeurs observées précédemment, et les exploite pleinement une fois arrivé dans un noeud terminal, où une fonction de prédiction spécifique est disponible.Dans notre dernière partie, nous nous intéressons à trois processus de décision qui, par construction, n'exigent pas que l'agent explore l'environnement. Par exemple, nous considérons un système dont la dynamique est suffisamment stochastique pour que, quelle que soit notre action, nous explorions l'espace d’état, tout en ayant une certaine influence par nos actions. Nous considérons également un système où certaines actions sont indisponibles aléatoirement en fonction des epochs. Outre les résultats théoriques trouvés, cette partie met l'accent sur l'importance de concentrer l'exploration là où elle est nécessaire.

Some contributions to decision-making problems

Quelques contributions à des problèmes de décisions

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager