Hierarchical & Factored Reinforcement Learning - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2010

Hierarchical & Factored Reinforcement Learning

Apprentissage par renforcement hiérarchique et factorisé

Olga Kozlova
  • Fonction : Auteur
  • PersonId : 920394
  • IdRef : 153490578

Résumé

This thesis is accomplished in the context of the industrial simulation domain that addresses the problems of modelling of human behavior in military training and civil security simulations. The aim of this work is to solve large stochastic and sequential decision making problems in the Markov Decision Process (MDP) framework using Reinforcement Learning methods for learning and planning under uncertainty. The Factored Markov Decision Process (FMDP) framework is a standard representation for sequential decision problems under uncertainty where the state is represented as a collection of random variables. Factored Reinforcement Learning (FRL) is an Modelbased Reinforcement Learning approach to FMDPs where the transition and reward functions of the problem are learned under a factored form. As a first contribution of this thesis, we show how to model in a theoretically well-founded way the problems where some combinations of state variable values may not occur, giving rise to what we call impossible states. Furthermore, we propose a new heuristics that considers as impossible the states that have not been seen so far. We derive an algorithm whose improvement in performance with respect to the standard approach is illustrated through benchmark experiments on MAZE6 and BLOCKS WORLD problems. Besides, following the example of FMDPs, a Hierarchical MDP (HMDP) is based on the idea of factorization, but brings that idea on a new level. From state factorization of FMDPs, HMDP can make profit of task factorization, where a set of similar situations (defined by their goals) are represented by a partially defined set of independent subtasks. In other words, it is possible to simplify a problem by splitting it into smaller problems that are easier to solve individually, but also reuse the subtasks in order to speed up the global search of a solution. This kind of architecture can be eficiently represented using the options framework by including temporally extended courses of actions. The second contribution of this thesis introduces TeXDYNA, an algorithm designed to solve large MDPs with unknown structure by integrating hierarchical abstraction techniques of Hierarchical Reinforcement Learning (HRL) and factorization techniques of FRL. TeXDYNA performs incremental hierarchical decomposition of the FMDP, based on the automatic discovery of subtasks directly from the internal structure of the problem. We evaluate TeXDYNA on two benchmark problems, namely TAXI and LIGHT BOX, and we show that combining contextual information abstraction through the FMDP framework and hierarchy building through the HMDP framework results in very efficient compaction of the structures to be learned, faster computation and improved convergence speed. Furthermore, we appraise the potential and limitations of TeXDYNA on a toy application more representative of the industrial simulation domain.
Cette thèse a été réalisée dans un contexte de simulation industrielle qui s'intéresse aux problèmes de la modélisation du comportement humain dans les simulateurs d'entraînement militaire ou de sécurité civile. Nous avons abordé cette problématique sous l'angle de l'apprentissage et de la planification dans l'incertain, en modélisant les problèmes que nous traitons comme des problèmes stochastiques de grande taille dans le cadre des Processus de Décision Markoviens (MDP). Les MDP factorisés (FMDP) sont un cadre standard de représentation des problèmes séquentiels dans l'incertain, où l'état du système est décomposé en un ensemble de variables aléatoires. L'apprentissage par renforcement factorisé (FRL) est une approche d'apprentissage indirecte dans les FMDP où les fonctions de transition et de récompense sont inconnues a priori et doivent être apprises sous une forme factorisée. Par ailleurs, dans les problèmes où certaines combinaisons de variables n'existent pas, la représentation factorisée n'empêche pas la représentation de ces états que nous appelons impossibles. Dans la première contribution de cette thèse, nous montrons comment modéliser ce type de problèmes de manière théoriquement bien fondée. De plus, nous proposons une heuristique qui considère chaque état comme impossible tant qu'il n'a pas été visité. Nous en dérivons un algorithme dont les performances sont démontrées sur des problèmes jouet classiques dans la littérature, MAZE6 et BLOCKS WORLD, en comparaison avec l'approche standard. Pour traiter les MDP de grande taille, les MDP hiérarchiques (HMDP) sont aussi basés sur l'idée de la factorisation mais portent cette idée à un niveau supérieur. D'une factorisation d'état des FMDP, les HMDP passent à une factorisation de tâche, où un ensemble de situations similaires (définies par leurs buts) est représenté par un ensemble de sous-tâches partiellement définies. Autrement dit, il est possible de simplifier le problème en le décomposant en sous-problèmes plus petits et donc plus faciles à résoudre individuellement, mais aussi de réutiliser les sous-tâches afin d'accélérer la recherche de la solution globale. Le formalisme des options qui inclut des actions abstraites à durée étendue, permet de modéliser efficacement ce type d'architecture. La deuxième contribution de cette thèse est la proposition de TeXDYNA, un algorithme pour la résolution de MDP de grande taille dont la structure est inconnue. TeXDYNA combine les techniques d'abstraction hiérarchique de l'apprentissage par renforcement hiérarchique (HRL) et les techniques de factorisation de FRL pour décomposer hiérarchiquement le FMDP sur la base de la découverte automatique des sous-tâches directement à partir de la structure du problème qui est elle même apprise en interaction avec l'environnement. Nous évaluons TeXDYNA sur deux benchmarks, à savoir les problèmes TAXI et LIGHT BOX, et nous montrons que combiner l'abstraction d'information contextuelle dans le cadre des FMDP et la construction d'une hiérarchie dans le cadre des HMDP permet une compression très efficace des structures à apprendre, des calculs plus rapides et une meilleure vitesse de convergence. Finalement, nous estimons le potentiel et les limitations de TeXDYNA sur un problème jouet plus représentatif du domaine de la simulation industrielle.
Fichier principal
Vignette du fichier
OKPHD.pdf (7.44 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00632968 , version 1 (17-10-2011)

Identifiants

  • HAL Id : tel-00632968 , version 1

Citer

Olga Kozlova. Hierarchical & Factored Reinforcement Learning. Other [cs.OH]. Université Pierre et Marie Curie - Paris VI, 2010. English. ⟨NNT : ⟩. ⟨tel-00632968⟩
314 Consultations
385 Téléchargements

Partager

Gmail Facebook X LinkedIn More