Skip to Main content Skip to Navigation
Theses

Micro-Data Reinforcement Learning for Adaptive Robots

Konstantinos Chatzilygeroudis 1
1 LARSEN - Lifelong Autonomy and interaction skills for Robots in a Sensing ENvironment
Inria Nancy - Grand Est, LORIA - AIS - Department of Complex Systems, Artificial Intelligence & Robotics
Résumé : Les robots opèrent dans le monde réel, dans lequel essayer quelque chose prend des secondes, des heures ou même des jours. Malheureusement, les algorithmes d’apprentissage par renforcement actuels (par exemple, les algorithmes de “deep reinforcement learning”) nécessitent de longues périodes d’interaction pour trouver des politiques efficaces. Dans ce thèse, nous avons exploré des algorithms qui abordent le défi de l’apprentissage par essai et erreur en quelques minutes sur des robots physiques. Nous appelons ce défi “Apprentissage par renforcement micro-data”. Dans notre première contribution, nous avons proposé un nouvel algorithme d’apprentissage appelé “Reset-free Trial-and-Error” qui permet aux robots complexes de s’adapter rapidement dans des circonstances inconnues (par exemple, des dommages ou un terrain différent) tout en accomplissant leurs tâches et en prenant en compte l’environnement; en particulier, un robot hexapode endommagé a retrouvé la plupart de ses capacités de locomotion dans un environnement avec des obstacles, et sans aucune intervention humaine. Dans notre deuxième contribution, nous avons proposé un nouvel algorithme de recherche de politique “basé modèle”, appelé Black-DROPS, qui: (1) n’impose aucune contrainte á la fonction de récompense ou á la politique, (2) est aussi efficace que les algorithmes de l’état de l’art, et (3) est aussi rapide (ou plus rapide) que les approches analytiques lorsque plusieurs processeurs sont disponibles. Nous avons aussi proposé Multi-DEX, une extension qui s’inspire de l’algorithme “Novelty Search” et permet de résoudre plusieurs scénarios où les récompenses sont rares. Dans notre troisième contribution, nous avons introduit une nouvelle procédure d’apprentissage du modèle dans Black-DROPS qui exploite un simulateur paramétré pour permettre d’apprendre des politiques sur des systèmes avec des espaces d’état de grande taille; par exemple, cet extension de Black-DROPS a trouvé des politiques de marche performantes pour un robot hexapode (espace d’état 48D et d’action 18D) en moins d’une minute de temps d’interaction. Enfin, dans la dernière partie de la thèse, nous avons exploré quelques idées comment intégrer les contraintes de sécurité, améliorer la robustesse et tirer parti des multiple a priori en optimisation bayésienne. A travers l’ensemble de cette thèse, notre objectif était de concevoir des algorithmes qui fonctionnent sur des robots physiques, et pas seulement en simulation. Par conséquent, tous les approches proposées ont été évaluées sur au moins un robot physique. Dans l’ensemble, cette thèse propose des méthodes et des algorithmes qui permettre aux robots physiques d’être plus autonomes et de pouvoir apprendre en poignée d’essais.
Complete list of metadatas

Cited literature [292 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-01966770
Contributor : Konstantinos Chatzilygeroudis <>
Submitted on : Saturday, December 29, 2018 - 4:20:31 PM
Last modification on : Wednesday, April 10, 2019 - 3:04:37 PM
Document(s) archivé(s) le : Saturday, March 30, 2019 - 1:46:19 PM

File

thesis.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-01966770, version 1

Citation

Konstantinos Chatzilygeroudis. Micro-Data Reinforcement Learning for Adaptive Robots. Robotics [cs.RO]. Université de Lorraine, 2018. English. ⟨NNT : 2018LORR0276⟩. ⟨tel-01966770⟩

Share

Metrics

Record views

213

Files downloads

1587