Apprentissage de nouveaux comportements: vers le développement épigénétique d'un robot autonome.

Matthieu Lagarde; Philippe Gaussier; Pierre Andry

Résumé

The problem of learning behaviors on an autonomous robot raises many issues related to motor control, behavior encoding, behavioral strategies and action selection. Using a developmental approach is of particular interest in the context of autonomous robotics. The behavior of the robot is based on low level mechanisms that together can make more complex behaviors emerge. Moreover, the robot has no a priori information about its own physical characteristics or on its environment, it must learn its own sensori-motor dynamic. For instance, I started my thesis by studying a model of low level imitation. From a developmental point of view, imitation is present from birth and accompanies the development of young children under multiple forms. It has a learning function and shows up as an asset in term of performance in time of behaviors acquisition, as well as a communication function playing a role in the bootstrap and the maintenance of nonverbal and natural interactions. Moreover, even if there is not a real intention to imitate, the observation of another agent allows to extract enough information to be able to reproduce the task. Initially, my work consisted in applying and testing a developmental model allowing emergence of low level imitation behaviors on an autonomous robot. This model is built like a homeostatic system which tends to balance its rough perceptive information (movement detection, color detection, angular information from motors of a robotic arm) by its action. Thus, when a human moves his hand in the robot visual field, the perception ambiguity of the robot makes it consider the human hand as its own arm extremity. From the resulting error a immediate imitation behavior emerges. Of course, such a model implies that the robot is initially able to associate the visual positions of its effector with the proprioceptive informations of its motors. Thanks to imitation behavior, the robot makes movements from which it can learn to build more complex behaviors. Then, how to go from a simple movement to a more complex gesture which can imply an object or a place ? I then proposed an architecture allowing a robot to learn a behavior as a complex temporal sequences (with repetition of elements) of movements. Two models allowing to learn sequences have been developed and tested. The first, based on a model of the hippocampus, learns on-line the timing of simple temporal sequences. The second, based on the properties of a dynamic reservoir, learns on-line complex temporal sequences. Based on these works, an architecture learning the timing of a complex temporal sequence has been proposed. The tests in simulation and on actual robot have shown the necessity to add a resynchronization mechanism that allows to find the correct hidden states for starting a complex sequence by an intermediate state. In a third time, my work consisted in studying how two sensori-motor strategies can cohabit in the context of navigation task. The first strategy codes the behavior from spatial informations, then the second uses temporal informations. Both architectures have been independently tested on the same task. Then, both strategies were merged and executed in parallel. Responses of both strategies were merged with the use of dynamical neural filed. A mechanism of "chunking" which represents the instantaneous state of the robot (current place with current action) allows to resynchronize the temporal sequences dynamics. In parallel, a number of programming and design problems about neural networks have appeared. In fact, our networks can be made of many hundreds of thousands of neurons. It becomes hard to execute them on one computational unit. How to design neural architectures with parallel computation, network communication and real time constraints ? Another part of my work consisted in providing tools allowing the design, communication and real time execution of distributed architectures. Finally, in the context of the Feelix Growing European project, I contribute to integrate my work with those of the LASA laboratory of EPFL for the learning of complex behaviors mixing navigation, gesture and object. To conclude, this thesis allowed me to develop new models for learning behaviors - in time and in space, new tools to handle very large neural networks, and to discuss, beyond limitations of the current system, the important elements for an action selection system.

La problématique de l'apprentissage de comportements sur un robot autonome soulève de nombreuses questions liées au contrôle moteur, à l'encodage du comportement, aux stratégies comportementales et à la sélection de l'action. Utiliser une approche développementale présente un intérêt tout particulier dans le cadre de la robotique autonome. Le comportement du robot repose sur des mécanismes de bas niveau dont les interactions permettent de faire émerger des comportements plus complexes. Le robot ne possède pas d'informations a priori sur ses caractéristiques physiques ou sur l'environnement, il doit apprendre sa propre dynamique sensori-motrice. J'ai débuté ma thèse par l'étude d'un modèle d'imitation bas niveau. Du point de vue du développement, l'imitation est présente dès la naissance et accompagne, sous de multiples formes, le développement du jeune enfant. Elle présente une fonction d'apprentissage et se révèle alors être un atout en terme de temps d'acquisition de comportements, ainsi qu'une fonction de communication participant à l'amorce et au maintien d'interactions non verbales et naturelles. De plus, même s'il n'y a pas de réelle intention d'imiter, l'observation d'un autre agent permet d'extraire suffisamment d'informations pour être capable de reproduire la tâche. Mon travail a donc dans un premier temps consisté à appliquer et tester un modèle développemental qui permet l'émergence de comportements d'imitation de bas niveau sur un robot autonome. Ce modèle est construit comme un homéostat qui tend à équilibrer par l'action ses informations perceptives frustres (détection du mouvement, détection de couleur, informations sur les angles des articulations d'un bras de robot). Ainsi, lorsqu'un humain bouge sa main dans le champ visuel du robot, l'ambigüité de la perception de ce dernier lui fait confondre la main de l'humain avec l'extrémité de son bras. De l'erreur qui en résulte émerge un comportement d'imitation immédiate des gestes de l'humain par action de l'homéostat. Bien sûr, un tel modèle implique que le robot soit capable d'associer au préalable les positions visuelles de son effecteur avec les informations proprioceptives de ses moteurs. Grace au comportement d'imitation, le robot réalise des mouvements qu'il peut ensuite apprendre pour construire des comportements plus complexes. Comment alors passer d'un simple mouvement à un geste plus complexe pouvant impliquer un objet ou un lieu ? Je propose une architecture qui permet à un robot d'apprendre un comportement sous forme de séquences temporelles complexes (avec répétition d'éléments) de mouvements. Deux modèles différents permettant l'apprentissage de séquences ont été développés et testés. Le premier apprend en ligne le timing de séquences temporelles simples. Ce modèle ne permettant pas d'apprendre des séquences complexes, le second modèle testé repose sur les propriétés d'un réservoir de dynamiques, il apprend en ligne des séquences complexes. A l'issue de ces travaux, une architecture apprenant le timing d'une séquence complexe a été proposée. Les tests en simulation et sur robot ont montré la nécessité d'ajouter un mécanisme de resynchronisation permettant de retrouver les bons états cachés pour permettre d'amorcer une séquence complexe par un état intermédiaire. Dans un troisième temps, mes travaux ont consisté à étudier comment deux stratégies sensorimotrices peuvent cohabiter dans le cadre d'une tâche de navigation. La première stratégie encode le comportement à partir d'informations spatiales alors que la seconde utilise des informations temporelles. Les deux architectures ont été testées indépendamment sur une même tâche. Ces deux stratégies ont ensuite été fusionnées et exécutées en parallèle. La fusion des réponses délivrées par les deux stratégies a été réalisée avec l'utilisation de champs de neurones dynamiques. Un mécanisme de "chunking" représentant l'état instantané du robot (le lieu courant avec l'action courante) permet de resynchroniser les dynamiques des séquences temporelles. En parallèle, un certain nombre de problème de programmation et de conception des réseaux de neurones sont apparus. En effet, nos réseaux peuvent compter plusieurs centaines de milliers de neurones. Il devient alors difficile de les exécuter sur une seule unité de calcul. Comment concevoir des architectures neuronales avec des contraintes de répartition de calcul, de communications réseau et de temps réel ? Une autre partie de mon travail a consisté à apporter des outils permettant la modélisation, la communication et l'exécution en temps réel d'architecture distribuées. Pour finir, dans le cadre du projet européen Feelix Growing, j'ai également participé à l'intégration de mes travaux avec ceux du laboratoire LASA de l'EPFL pour l'apprentissage de comportements complexes mêlant la navigation, le geste et l'objet. En conclusion, cette thèse m'a permis de développer à la fois de nouveaux modèles pour l'apprentissage de comportements - dans le temps et dans l'espace, de nouveaux outils pour maîtriser des réseaux de neurones de très grande taille et de discuter à travers les limitations du système actuel, les éléments importants pour un système de sélection de l'action.

Learning of new behaviors : toward epigenetic development of an autonomous robot.

Apprentissage de nouveaux comportements: vers le développement épigénétique d'un robot autonome.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager