Micro-Data Reinforcement Learning for Adaptive Robots

Konstantinos Chatzilygeroudis

Résumé

Robots have to face the real world, in which trying something might take seconds, hours, or even days. Unfortunately, the current state-of-the-art reinforcement learning algorithms (e.g., deep reinforcement learning) require big interaction times to find effective policies. In this thesis, we explored approaches that tackle the challenge of learning by trial-and-error in a few minutes on physical robots. We call this challenge “micro-data reinforcement learning”. In our first contribution, we introduced a novel learning algorithm called “Reset-free Trial-and-Error” that allows complex robots to quickly recover from unknown circumstances (e.g., damages or different terrain) while completing their tasks and taking the environment into account; in particular, a physical damaged hexapod robot recovered most of its locomotion abilities in an environment with obstacles, and without any human intervention. In our second contribution, we introduced a novel model-based reinforcement learning algorithm, called Black-DROPS that: (1) does not impose any constraint on the reward function or the policy (they are treated as black-boxes), (2) is as data-efficient as the state-of-the-art algorithm for data-efficient RL in robotics, and (3) is as fast (or faster) than analytical approaches when several cores are available. We additionally proposed Multi-DEX, a model-based policy search approach, that takes inspiration from novelty-based ideas and effectively solved several sparse reward scenarios. In our third contribution, we introduced a new model learning procedure in Black-DROPS (we call it GP-MI) that leverages parameterized black-box priors to scale up to high-dimensional systems; for instance, it found high-performing walking policies for a physical damaged hexapod robot (48D state and 18D action space) in less than 1 minute of interaction time. Finally, in the last part of the thesis, we explored a few ideas on how to incorporate safety constraints, robustness and leverage multiple priors in Bayesian optimization in order to tackle the micro-data reinforcement learning challenge. Throughout this thesis, our goal was to design algorithms that work on physical robots, and not only in simulation. Consequently, all the proposed approaches have been evaluated on at least one physical robot. Overall, this thesis aimed at providing methods and algorithms that will allow physical robots to be more autonomous and be able to learn in a handful of trials.

Les robots opèrent dans le monde réel, dans lequel essayer quelque chose prend des secondes, des heures ou même des jours. Malheureusement, les algorithmes d’apprentissage par renforcement actuels (par exemple, les algorithmes de “deep reinforcement learning”) nécessitent de longues périodes d’interaction pour trouver des politiques efficaces. Dans ce thèse, nous avons exploré des algorithms qui abordent le défi de l’apprentissage par essai et erreur en quelques minutes sur des robots physiques. Nous appelons ce défi “Apprentissage par renforcement micro-data”. Dans notre première contribution, nous avons proposé un nouvel algorithme d’apprentissage appelé “Reset-free Trial-and-Error” qui permet aux robots complexes de s’adapter rapidement dans des circonstances inconnues (par exemple, des dommages ou un terrain différent) tout en accomplissant leurs tâches et en prenant en compte l’environnement; en particulier, un robot hexapode endommagé a retrouvé la plupart de ses capacités de locomotion dans un environnement avec des obstacles, et sans aucune intervention humaine. Dans notre deuxième contribution, nous avons proposé un nouvel algorithme de recherche de politique “basé modèle”, appelé Black-DROPS, qui: (1) n’impose aucune contrainte á la fonction de récompense ou á la politique, (2) est aussi efficace que les algorithmes de l’état de l’art, et (3) est aussi rapide (ou plus rapide) que les approches analytiques lorsque plusieurs processeurs sont disponibles. Nous avons aussi proposé Multi-DEX, une extension qui s’inspire de l’algorithme “Novelty Search” et permet de résoudre plusieurs scénarios où les récompenses sont rares. Dans notre troisième contribution, nous avons introduit une nouvelle procédure d’apprentissage du modèle dans Black-DROPS qui exploite un simulateur paramétré pour permettre d’apprendre des politiques sur des systèmes avec des espaces d’état de grande taille; par exemple, cet extension de Black-DROPS a trouvé des politiques de marche performantes pour un robot hexapode (espace d’état 48D et d’action 18D) en moins d’une minute de temps d’interaction. Enfin, dans la dernière partie de la thèse, nous avons exploré quelques idées comment intégrer les contraintes de sécurité, améliorer la robustesse et tirer parti des multiple a priori en optimisation bayésienne. A travers l’ensemble de cette thèse, notre objectif était de concevoir des algorithmes qui fonctionnent sur des robots physiques, et pas seulement en simulation. Par conséquent, tous les approches proposées ont été évaluées sur au moins un robot physique. Dans l’ensemble, cette thèse propose des méthodes et des algorithmes qui permettre aux robots physiques d’être plus autonomes et de pouvoir apprendre en poignée d’essais.

Micro-Data Reinforcement Learning for Adaptive Robots

Apprentissage micro-data pour l'adaptation en robotique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager