Robust learning for autonomous agents in stochastic environments

Ugo Lecerf

Résumé

In this work we explore data-driven deep reinforcement learning (RL) approaches for an autonomous agent to be robust to a navigation task, and act correctly in the face of risk and uncertainty. We investigate the effects that sudden changes to environment conditions have on autonomous agents and explore methods which allow an agent to have a high degree of generalization to unforeseen, sudden modifications to its environment it was not explicitly trained to handle. Inspired by the human dopamine circuit, the performance of an RL agent is measured and optimized in terms of rewards and penalties it receives for desirable or undesirable behaviour. Our initial approach is to learn to estimate the distribution of expected rewards from the agent, and use information about modes in this distribution to gain nuanced information about how an agent can act in a high-risk situation. Later, we show that we are able to achieve the same robustness objective with respect to uncertainties in the environment by attempting to learn the most effective contingency policies in a `divide and conquer' approach, where the computational complexity of the learning task is shared between multiple policy models. We then combine this approach with a hierarchical planning module which is used to effectively schedule the different policy models in such a way that the collection of contingency plans is able to be highly robust to unanticipated environment changes. This combination of learning and planning enables us to make the most of the adaptability of deep learning models, as well as the stricter and more explicit constraints that can be implemented and measured by means of a hierarchical planner.

Nous explorons une approche par l'apprentissage par renforcement (RL) pour qu'un agent autonome soit robuste aux risques et incertitudes rencontrés dans une tâche de navigation. Nous étudions les effets des changements soudains des conditions de leur environnement sur des agents autonomes et explorons des méthodes qui permettent à un agent de correctement réagir aux imprévus de son environnement pour lesquelles il n'a pas été explicitement formé. Inspiré par le circuit de dopamine humain, la performance d'un agent RL est mesurée et optimisée en termes de récompenses et de pénalités qu'il reçoit pour un comportement désirable ou indésirable. Notre approche initiale consiste à apprendre à estimer la distribution des récompenses attendues de l'agent, et à utiliser les informations sur les modes de cette distribution pour obtenir des informations nuancées sur la façon dont un agent peut agir dans une situation à haut risque. Nous montrons également que nous sommes capables d'apprendre une stratégie robuste aux incertitudes de l'environnement en apprenant les stratégies de contingence les plus efficaces, où la complexité informatique de la tâche d'apprentissage est partagée entre plusieurs agents. Nous combinons ensuite cette approche avec un module de planification hiérarchique qui est utilisé pour planifier efficacement les différents agents de telle sorte que l'ensemble des agents soit capable de réagir aux changements imprévus de l'environnement. Cela nous permet d'adhérer à des contraintes plus strictes et plus explicites qui peuvent être mises en œuvre et mesurées au moyen d'un planificateur hiérarchique.

Robust learning for autonomous agents in stochastic environments

Apprentissage robuste pour des agents autonomes dans des environnements stochastiques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager