Efficient adaptation of reinforcement learning agents : from model-free exploration to symbolic world models - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Efficient adaptation of reinforcement learning agents : from model-free exploration to symbolic world models

Adaptation efficace des agents appris par renforcement : de l'exploration model-free aux modèles symboliques

Pierre-Alexandre Kamienny
  • Fonction : Auteur
  • PersonId : 1189089
  • IdRef : 274575434

Résumé

Reinforcement Learning (RL) encompasses a range of techniques employed to train autonomous agents to interact with environments with the purpose of maximizing their returns across various training tasks. To ensure successful deployment of RL agents in real-world scenarios, achieving generalization and adaptation to unfamiliar situations is crucial. Although neural networks have shown promise in facilitating in-domain generalization by enabling agents to interpolate desired behaviors, their limitations in generalizing beyond the training distribution often lead to suboptimal performance on out-of-distribution data. These challenges are further amplified in RL settings characterized by non-stationary environments and constant distribution shifts during deployment. This thesis presents novel strategies within the framework of Meta-Reinforcement Learning, aiming to equip RL agents with the ability to adapt at test-time to out-of-domain tasks. The first part of the thesis focuses on model-free techniques to learn effective exploration strategies. We consider two scenarios: one where the agent is provided with a set of training tasks, enabling it to explicitly model and learn generalizable task representations; and another where the agent learns without rewards to maximize its state coverage. In the second part, we investigate into the application of symbolic regression, a powerful tool for developing predictive models that offer interpretability and exhibit enhanced robustness against distribution shifts. These models are subsequently integrated within model-based RL agents to improve their performance. Furthermore, this research contributes to the field of symbolic regression by introducing a collection of techniques that leverage Transformer models, enhancing their accuracy and effectiveness. In summary, by addressing the challenges of adaptation and generalization in RL, this thesis focuses on the understanding and application of Meta-Reinforcement Learning strategies. It provides insights and techniques for enabling RL agents to adapt seamlessly to out-of-domain tasks, ultimately facilitating their successful deployment in real-world scenarios.
L'apprentissage par renforcement (RL) est un ensemble de techniques utilisées pour former des agents autonomes à interagir avec des environnements de manière à maximiser leur récompense. Pour déployer avec succès ces agents dans des scénarios réels, il est crucial qu'ils puissent généraliser à des situations inconnues. Bien que les réseaux de neurones aient montré des résultats prometteurs en permettant aux agents d'interpoler des comportements souhaités, leurs limites en termes de généralisation au-delà de la distribution d'entraînement entraînent souvent des performances sous-optimales sur des données issue d'une distribution différente. Ces défis sont encore amplifiés dans les environnements de RL caractérisés par des situations non stationnaires et des changements constants de la distribution lors du déploiement. Cette thèse présente de nouvelles stratégies dans le cadre du meta-RL visant à doter les agents RL de la capacité à s'adapter sur des tâches différentes du domaine d'entraînement. La première partie de la thèse se concentre sur les techniques model-free, c'est à dire qui ne modélisent pas explicitement l'environnement, pour apprendre des stratégies d'exploration efficaces. Nous examinons deux scénarios : dans le premier, l'agent dispose d'un ensemble de tâches d'entraînement, ce qui lui permet de modéliser explicitement les tâches et d'apprendre des représentations de tâches généralisables ; dans le second, l'agent apprend sans récompense à maximiser la couverture de l'espace des états. Dans la deuxième partie, nous explorons l'application de la régression symbolique, un outil puissant pour développer des modèles prédictifs offrant une interprétabilité et une meilleure robustesse face aux changements de distribution. Ces modèles sont ensuite intégrés aux agents model-based pour améliorer la modélisation de la dynamique. De plus, cette recherche contribue au domaine de la régression symbolique en introduisant une collection de techniques exploitant les modèles génératifs, en particulier le Transformer, ce qui améliore leur précision et leur efficacité. En résumé, cette thèse aborde abordant le défi de la généralisation et adaptation dans le RL. Elle développe des techniques visant à permettre aux agents meta-RL de s'adapter à des tâches hors domaine, facilitant ainsi leur déploiement dans des scénarios du monde réel.
Fichier principal
Vignette du fichier
KAMIENNY_Pierre_Alexandre_these_2023.pdf (21.75 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04391194 , version 1 (12-01-2024)

Identifiants

  • HAL Id : tel-04391194 , version 1

Citer

Pierre-Alexandre Kamienny. Efficient adaptation of reinforcement learning agents : from model-free exploration to symbolic world models. Artificial Intelligence [cs.AI]. Sorbonne Université, 2023. English. ⟨NNT : 2023SORUS412⟩. ⟨tel-04391194⟩
238 Consultations
17 Téléchargements

Partager

Gmail Facebook X LinkedIn More