Codage hippocampique par transitions spatio-temporelles pour l'apprentissage autonome de comportements dans des tâches de navigation sensori-motrice et de planification en robotique

Julien Hirel

Résumé

This thesis takes interest in the mechanisms facilitating the autonomous acquisition of be- haviors in animals and proposes to use these mechanisms in the frame of robotic tasks. Artificial neural networks are used to model cerebral structures, both to understand how these structures work and to design robust and adaptive algorithms for robot control. The work presented here is based on a model of the hippocampus capable of learning the temporal relationship between perceptive events. The neurons performing this learning, called transition cells, can predict which future events the robot could encounter. These transitions support the building of a cognitive map, located in the prefrontal and/or parietal cortex. The map can be learned by a mobile robot exploring an unknown environment and then be used to plan paths in order to reach one or several goals. Apart from their use in building a cognitive map, transition cells are also the basis for the design of a model of reinforcement learning. A biologically plausible neural implementation of the Q-learning algorithm, using transitions, is made by taking inspiration from the basal ganglia. This architecture provides an alternative strategy to the cognitive map planning strategy. The reinforcement learning strategy requires a longer learning period but corresponds more to an au- tomatic low-level behavior. Experiments are carried out with both strategies used in cooperation and lesions of the prefrontal cortex and basal ganglia allow to reproduce experimental results obtained with rats. Transition cells can learn temporally precise relations predicting the exact timing when an event should be perceived. In a model of interactions between the hippocampus and prefrontal cortex, we show how these predictions can explain in-vivo recordings in these cerebral struc- tures, in particular when rat is carrying out a task during which it must remain stationary for 2 seconds on a goal location to obtain a reward. The learning of temporal information about the environment and the behavior of the robot allows the system to detect regularity. On the contrary, the absence of a predicted event can signal a failure in the behavior of the robot, which can be detected and acted upon in order to modulate the failing behavior. Consequently, a fail- ure detection system is developed, taking advantage of the temporal predictions provided by the hippocampus and the interaction between behavior modulation functions in the prefrontal cortex and reinforcement learning in the basal ganglia. Several robotic experiments are conducted, in which the failure signal is used to modulate, immediately at first, the behavior of the robot in order to stop selecting actions which lead to failures and explore other strategies. The signal is then used in a more lasting way by modulating the learning of the associations leading to the selection of an action so that the repeted failures of an action in a particular context lead to the suppression of this association. Finally, after having used the model in the frame of navigation, we demonstrate its general- ization capabilities by using it to control a robotic arm in a trajectory planning task. This work constitutes an important step towards obtaining a generic and unified model allowing the control of various robotic setups and the learning of tasks of different natures.

Cette thèse s'intéresse aux mécanismes permettant de faciliter l'acquisition autonome de comportements chez les êtres vivants et propose d'utiliser ces mécanismes dans le cadre de tâches robotiques. Des réseaux de neurones artificiels sont utilisés pour modéliser certaines structures cérébrales, à la fois afin de mieux comprendre le fonctionnement de ces structures dans le cerveau des mammifères et pour obtenir des algorithmes robustes et adaptatifs de contrôle en robotique. Les travaux présentés se basent sur un modèle de l'hippocampe permettant d'apprendre des relations temporelles entre des événements perceptifs. Les neurones qui forment le substrat de cet apprentissage, appelés cellules de transition, permettent de faire des prédictions sur les événements futurs que le robot pourrait rencontrer. Ces transitions servent de support à la con- struction d'une carte cognitive, située dans le cortex préfrontal et/ou pariétal. Cette carte peut être apprise lors de l'exploration d'un environnement inconnu par un robot mobile et ensuite utilisée pour planifier des chemins lui permettant de rejoindre un ou plusieurs buts. Outre leur utilisation pour la construction d'une carte cognitive, les cellules de transition servent de base à la conception d'un modèle d'apprentissage par renforcement. Une implémen- tation neuronale de l'algorithme de Q-learning, utilisant les transitions, est réalisée de manière biologiquement plausible en s'inspirant des ganglions de la base. Cette architecture fournit une stratégie de navigation alternative à la planification par carte cognitive, avec un apprentissage plus lent, et correspondant à une stratégie automatique de bas-niveau. Des expériences où les deux stratégies sont utilisées en coopération sont réalisées et des lésions du cortex préfrontal et des ganglions de la base permettent de reproduire des résultats expérimentaux obtenus chez les rats. Les cellules de transition peuvent apprendre des relations temporelles précises permettant de prédire l'instant où devrait survenir un événement. Dans un modèle des interactions entre l'hippocampe et le cortex préfrontal, nous montrons comment ces prédictions peuvent expliquer certains enregistrements in-vivo dans ces structures cérébrales, notamment lorsqu'un rat réalise une tâche durant laquelle il doit rester immobile pendant 2 secondes sur un lieu but pour obtenir une récompense. L'apprentissage des informations temporelles provenant de l'environnement et du comportement permet de détecter des régularités. A l'opposé, l'absence d'un événe- ment prédit peut signifier un échec du comportement du robot, qui peut être détecté et utilisé pour adapter son comportement en conséquence. Un système de détection de l'échec est alors développé, tirant parti des prédictions temporelles fournies par l'hippocampe et des interactions entre les aspects de modulation comportementale du cortex préfrontal et d'apprentissage par renforcement dans les ganglions de la base. Plusieurs expériences robotiques sont conduites dans lesquelles ce signal est utilisé pour moduler le comportement d'un robot, dans un premier temps de manière immédiate, afin de mettre fin aux actions du robot qui le mènent à un échec et envisager d'autres stratégies. Ce signal est ensuite utilisé de manière plus permanente pour moduler l'apprentissage des associations menant à la sélection d'une action, afin que les échecs répétés d'une action dans un contexte particulier fassent oublier cette association. Finalement, après avoir utilisé le modèle dans le cadre de la navigation, nous montrons ses capacités de généralisation en l'utilisant pour le contrôle d'un bras robotique. Ces travaux constituent une étape importante pour l'obtention d'un modèle unifié et générique permettant le contrôle de plates-formes robotiques variés et pouvant apprendre à résoudre des tâches de natures différentes.

Hippocampal coding of spatio-temporal transitions for autonomous behavior learning in robotic tasks of sensori-motor navigation and planning

Codage hippocampique par transitions spatio-temporelles pour l'apprentissage autonome de comportements dans des tâches de navigation sensori-motrice et de planification en robotique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager