Advances in Risk-Aware Offline Reinforcement Learning: A Study of Data Augmentation, Explainability, and Policy Selection

Giorgio Angelotti

Theses Year : 2023

Advances in Risk-Aware Offline Reinforcement Learning: A Study of Data Augmentation, Explainability, and Policy Selection

Contributions à l'apprentissage par renforcement hors ligne avec prise en compte du risque : étude sur l'augmentation des données, sur la sélection des politiques et sur l'explicabilité

(1)

Giorgio Angelotti

Function : Author

Institut Supérieur de l'Aéronautique et de l'Espace

Abstract

In the field of Offline Reinforcement Learning, the goal is to learn a decision policy offline based on a previously collected batch of experiences and without additional interaction in a data-efficient and risk-sensitive manner. This dissertation presents several techniques for achieving this goal, with a focus on model-based methods: paradigms that first infer a behavioral model for the sequential decision-making problem and subsequently solve it by taking into account model uncertainty. The presented contributions include a method for augmenting a dataset of samples through detecting symmetries in the system dynamics, an algorithm for performing offline risk-sensitive policy selection called Exploitation vs Caution (EvC) resorting to the Bayesian Markov Decision Process framework, and a paradigm for explainability in multi-agent cooperative systems using Myerson analysis. Additionally, perspectives are discussed for applying the EvC approach to obtaining an adaptive interaction control policy in a human-robot scenario. Indeed, taking proper precautions, we adapted the EvC algorithm for risk-sensitive policy selection to be applied to the ISAE Firefighter Robot Game, which involves the optimization of adaptive policies to control the interaction between a firefighter robot and a human operator in a proof-of-concept scenario. Overall, the contributions of this thesis demonstrate the potential for the presented techniques to significantly improve the performance of Offline Reinforcement Learning algorithms and to be applied in a variety of real-world settings, including Human-Robot Interaction.

Dans le domaine de l'apprentissage par renforcement hors ligne, l'objectif est d'apprendre une politique de décision hors ligne, c'est-à-dire sur la base d'un lot d'expériences collectées précédemment et sans interaction supplémentaire, de préférence d'une manière efficace en termes de données et sensible au risque. Cette thèse présente plusieurs techniques pour atteindre cet objectif, en mettant l'accent sur les méthodes basées sur des modèles : des paradigmes qui infèrent d'abord un modèle comportemental pour le problème de prise de décision séquentielle et le résolvent ensuite en prenant en compte l'incertitude de l'estimation du modèle. Les contributions présentées comprennent une méthode pour augmenter un ensemble de données d'échantillons en détectant les symétries dans la dynamique du système, une méthode pour effectuer une sélection de politique sensible au risque hors ligne appelée Exploitation vs Caution (EvC) en recourant au cadre du processus de décision de Markov bayésien, et un paradigme pour l'explicabilité dans les systèmes coopératifs multi-agents en utilisant l'analyse de Myerson. De plus, nous discutons des perspectives d'application de l'approche EvC pour obtenir une politique de contrôle d'interaction adaptative dans un scénario homme-robot. En effet, en prenant les précautions nécessaires, nous avons adapté l'algorithme EvC pour la sélection de politiques sensibles au risque afin de l'appliquer au ISAE Robot Firefighter Game, qui implique l'optimisation de politiques adaptatives pour contrôler l'interaction entre un robot pompier et un pompier humain dans un scénario de preuve de concept. Dans l'ensemble, les contributions de cette thèse démontrent le potentiel des techniques présentées pour améliorer de manière significative la performance des algorithmes d'apprentissage par renforcement hors ligne et pour être appliquées dans une variété de contextes du monde réel, y compris l'interaction homme-robot.

Keywords

Offline Reinforcement Learning Risk-Sensitive Human-Robot Interaction Data Augmentation Explainability Policy Selection

Apprentissage par renforcement hors ligne Sensible au risque Interaction homme-robot Augmentation des données Explicabilité Sélection des politiques

Domains

Artificial Intelligence [cs.AI] Human-Computer Interaction [cs.HC] Machine Learning [cs.LG] Multiagent Systems [cs.MA]

Fichier principal

2023_Angelotti_Giorgio.pdf (6.41 Mo)

Origin : Files produced by the author(s)
Licence : CC BY NC - Attribution - NonCommercial

Giorgio Angelotti : Connect in order to contact the contributor

https://theses.hal.science/tel-04195841

Submitted on : Monday, September 4, 2023-7:00:24 PM

Last modification on : Wednesday, September 6, 2023-8:58:46 AM

Dates and versions

tel-04195841 , version 1 (04-09-2023)

Licence

Attribution - NonCommercial

Identifiers

HAL Id : tel-04195841 , version 1

Cite

Giorgio Angelotti. Advances in Risk-Aware Offline Reinforcement Learning: A Study of Data Augmentation, Explainability, and Policy Selection. Artificial Intelligence [cs.AI]. ISAE-SUPAERO, 2023. English. ⟨NNT : 2023ESAE0035⟩. ⟨tel-04195841⟩

Export

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

49 View

93 Download

Advances in Risk-Aware Offline Reinforcement Learning: A Study of Data Augmentation, Explainability, and Policy Selection

Contributions à l'apprentissage par renforcement hors ligne avec prise en compte du risque : étude sur l'augmentation des données, sur la sélection des politiques et sur l'explicabilité

Abstract

Keywords

Domains

Dates and versions

Licence

Identifiers

Cite

Export

Share