Controlling the locomotion of quadruped robots with learning methods

Michel Aractingi

Résumé

For many years, researchers have been trying to develop and study legged machines that imitate animals and humans. The legs allow the agent to navigate on different terrains and through obstacles and steps where wheeled robots fail. In recent years, several quadruped robots have been invented that can produce high torque density and withstand impact. As a result, research on locomotion accelerated because many mechanical challenges could be solved on these new platforms. However, due to the complexity of controlling these robots and their underactuated nature, generating robust locomotion remains a problem. Traditional methods based on modeling and optimization produce efficient locomotion, but are difficult to adapt to different situations and lack robustness. Over the past decade, progress in the field of “deep reinforcement learning » has led many researchers to use these techniques for learning robots. The goal of these methods is to learn control policies from interaction data by maximizing a reward function that represents the desired task. In this thesis, we explore and develop deep reinforcement learning methods for quadruped locomotion. We had access to two quadruped robots, the Solo-12 and MIT's Mini-Cheetah. First, we developed a learning based method that is complementary to the model-based controller. The proposed approach modifies the nominal gait of Solo-12 that is executed by a controller based on model predictive control (MPC) which controls the trade-off velocity tracking and energy consumption. We then describe a method based on end-to-end policy learning of joint angle controllers for Solo-12. The goal of this policy is to control the robot to follow a user-defined velocity command. We detail the definition of states, actions, reward functions and propose a term based on the energy losses in order to represent the real energy consumption of the real robot. We then show an attempt to transfer the method developed for Solo-12 to Mini-Cheetah. Several difficulties were encountered in t! ransferring the policy to the Mini-Cheetah. To overcome them, we have developed a more complex approach based on distillation in order to learn a representation of unobservable privileged parameters, linked to the dynamics of the environment and the robot. Finally, we propose a hierarchical approach to locomotion where the low-level policy is tasked to optimize different parameterization of the reward and control. We argue that many features of the underlying locomotion are not represented in the high-level task of velocity tracking, such as, swing feet height, step length and expended energy. We propose an approach to learn control policies augmented with parameters that modify different aspects of the reward function and control setup which, in turn, results in variations of the locomotion. We can then define a hierarchical architecture where a high level policy infers the suitable parameters to complete a given task. This thesis contributes to the locomotion of legged robots as we implemented and deployed joint angle controllers learned with deep reinforcement learning on the Solo-12 robot and Mini-Cheetah. We conducted many experiments on the real robots and documented the complications and difficulties that arise from working with both systems.

Depuis de nombreuses années, les chercheurs tentent de développer et d’étudier des robot à pattes imitant les animaux et les humains. Les pattes permettent à l’agent de naviguer sur différents terrains et de franchir les obstacles et les marchés là où les robots à roues échouent. Ces dernières années, plusieurs robots quadrupèdes ont été développés, capables de produire une densité de couple élevée et de résister aux chocs. En conséquence, la recherche sur la locomotion s’est accélérée car de nombreux défis mécaniques ont pu être résolus sur ces nouvelles plates- formes. Cependant, en raison de la complexité du contrôle de ces robots et de leur nature sous- actionnée, il est difficile de leur conférer une locomotion robuste. Les méthodes traditionnelles basées sur la modélisation et l’optimisation produisent une locomotion efficace, mais sont difficiles à adapter aux différentes situations et manquent de robustesse. Au cours ! de la dernière décennie, les progrès dans le domaine de « l’apprentissage par renforcement profond » ont incité les chercheurs à utiliser cette nouvelle approche en robotique. Ces méthodes permettent d’apprendre des politiques de contrôle à partir des données d’interaction en maximisant une fonction de récompense qui permet d’exécuter la tâche souhaitée. Dans cette thèse, nous explorons et développons des méthodes d’apprentissage par renforcement profond pour la locomotion des quadrupèdes. Nous avons eu accès à deux robots quadrupèdes, le Solo-12 du LAAS et le Mini-Cheetah du MIT. Tout d’abord, nous avons développé une méthode d’apprentissage venant en complément d’un contrôleur basé-modèle. L’approche proposée modifie la locomotion nominale de Solo-12 produite par un contrôleur basé sur l’optimisation prédictive basée-modèle (MPC), assurant un compromis entre le suivi de la vitesse et la consommation d’énergie. Nous décrivons l’approche que nous avons développée pour apprendre de bout en bout d’une politique de commande des angles des liaisons de Solo-12. Cette politique permet de contrôler le robot pour suivre une vitesse de commande définie par l’utilisateur. Nous définissons les états, les actions et la fonction de récompense, ainsi que d’un terme représentant les pe! rtes énergétiques sur le robot réel, que nous introduisons dans la récompense afin de simuler la consommation énergétique réelle. Nous montrons ensuite que la méthode qui nous a permis de réaliser le transfert des politiques sur Solo-12 ne peut pas être directement utilisée pour Mini-Cheetah. Pour y parvenir, nous avons développé une approche plus complexe basée sur la distillation afin d’apprendre une représentation de paramètres privilégiés inobservables, liés à la dynamique de l’environnement et du robot. Enfin, nous proposons une approche hiérarchique de la locomotion dans laquelle la politique de bas niveau est chargée d’optimiser différents paramétrages de la récompense et du contrôle. Nous mettons en évidence que de nombreuses caractéristiques sous-jacentes de la locomotion ne sont pas représentées dans la tâche de suivi de la vitesse, telles que la hauteur des pieds en vol, la longueur des pas et l’énergie dépensée. Nous proposons une approche pour apprendre les politiques de contrôle augmentées de paramètres permettant de modifier différents aspects de la fonction de récompense et de la configuration du contrôle, ce qui, en retour, entraîne des variations de la locomotion pouvant être contrôlées par une politique de haut niveau. Cette thèse contribue à la locomotion des robots à pattes en développant et en déployant des contrôleurs d’angle articulaires appris par apprentissage par renforcement profond sur les robots Solo-12 et Mini-Cheetah. De nombreuses expériences ont été menées sur chacun de ces robots pour valider ces développements et les difficultés rencontrées ont été détaillées.

Controlling the locomotion of quadruped robots with learning methods

Contrôle de la locomotion des robots quadrupèdes à partir de méthodes d’apprentissage

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager