Utilisation de treillis de Galois pour structurer la généralisation des politiques pour l’Apprentissage par Renforcement

Marc Ricordeau

Thèse Année : 2009

Generalization of Policies for Reinforcement Learning using Galois Lattices

Utilisation de treillis de Galois pour structurer la généralisation des politiques pour l’Apprentissage par Renforcement

(1)

Marc Ricordeau

Fonction : Auteur
PersonId : 938479

Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier

Résumé

This work considers the generalization of the policies for reinforcement learning. The problem of generalizing from a set of examples or researching features are widely explored subjects in artiﬁcial intelligence. Thus, we propose to use generalization methods based on a language bias to generalize policies. Those are principally based on Galois lattices properties. Firstly, we propose a general algebraical framework formalizing the generalization of policies. During its learning, the agent observes a set of the environment’s states. We formalize the generalization of policies as a partitioning of this set. Usually used on the powerset, we propose to use the Galois lattices methods on the partition lattice. This allows us to propose an algorithm which produces, after a reinforcement learning, interesting concepts from the task point of view. These can be used to describe the policy or as features for other similar tasks. Finally, we propose a new way to formalized a reinforcement learning task and an associated algorithmic method called Q-Concept Learning, consisting in applying a learning step on the all set of the generalizations available considering the used language bias. In this context, we will discuss about solutions that allow the agent to generate in line policies. Our methods are implemented ans tested on academical problems.

Nos travaux envisagent la question de la généralisation des politiques pour l’apprentissage par renforcement. Or, le problème de la généralisation à partir d’un ensemble d’exemples ou de la recherche de régularités sont des sujets déjà intensivement traités en apprentissage artiﬁciel. Ainsi, nous nous proposons d’utiliser des techniques de généralisations contraintes par un biais de langage pour la généralisation des politiques. Celles-ci sont principalement basées sur les propriétés des treillis de Galois. Premièrement, nous proposons un cadre algébrique général, formalisant la généralisation des politiques sous l’angle du partitionnement de l’ensemble des états de l’environnement observés par l’agent. Habituellement utilisées sur le treillis des parties, nous proposerons d’utiliser les techniques de treillis de Galois sur les treillis des partitions. Ceci nous permet de proposer un algorithme produisant, après un apprentissage par renforcement, des concepts intéressants du point de vue de la tâche. Ceux-ci peuvent être utilisés pour décrire la politique ou servir de motifs pour d’autres tâches dans un environnement similaire. Enﬁn, nous proposerons une reformalisation de la tâche d’apprentissage ainsi qu’une méthode algorithmique associée que nous appellerons Q-Concept-Learning, consistant à appliquer un apprentissage sur l’ensemble des généralisations admises par le biais de langage utilisé. Dans ce contexte, nous discuterons et avancerons des solutions permettant à l’agent de générer des politiques « en ligne ». Les méthodes sont implémentées et expérimentées sur des problèmes académiques

Mots clés

Galois Lattices

Apprentissage par Renforcement Espaces de généralisation Treillis de Galois

Domaines

Informatique [cs]

Fichier principal

These Marc Ricordeau - 24062009.pdf (13.29 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Isabelle Gouat : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-04238310

Soumis le : jeudi 12 octobre 2023-09:34:10

Dernière modification le : samedi 14 octobre 2023-03:23:22

Archivage à long terme le : samedi 13 janvier 2024-18:23:50

Dates et versions

tel-04238310 , version 1 (12-10-2023)

Identifiants

HAL Id : tel-04238310 , version 1

Citer

Marc Ricordeau. Utilisation de treillis de Galois pour structurer la généralisation des politiques pour l’Apprentissage par Renforcement. Informatique [cs]. Université de Montpellier, 2009. Français. ⟨NNT : ⟩. ⟨tel-04238310⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS LIRMM MIPS UNIV-MONTPELLIER

12 Consultations

12 Téléchargements

Generalization of Policies for Reinforcement Learning using Galois Lattices

Utilisation de treillis de Galois pour structurer la généralisation des politiques pour l’Apprentissage par Renforcement

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager