Individual and group learning dynamics in evolutionary collective robotics

Nicolas Fontbonne

Résumé

With their proliferation in industry and daily life, robots are now increasingly required to interact with each other. This thesis deals with the problem of coordination between robots in a context where they have to learn their control policy autonomously. These policies are optimized with machine learning algorithms that take advantage of a reward function to increase performance incrementally. The structure of this function will significantly influence the learning dynamics and, then, the possible behaviours of the agents. We first study systems where agents individually receive a local reward adapted to their actions and must converge towards an optimal collective behaviour. We introduce a distributed evolutionary learning algorithm called Horizontal Information Transfert (HIT) that tackles this particular issue. Agents interact on-line in their environment and must learn their control policy with an embedded evolutionary algorithm and a parameter exchange system. It has the advantage of coping with the limited computation and communication capabilities of low-cost robots, which are often used in swarm robotics. We analyze this algorithm's characteristics and learning dynamics on a foraging task. We then study systems where the reward is given globally to the entire team. Therefore, this evaluation does not necessarily represent each agent's performance, and it can be challenging to calculate an individual contribution. We introduce a centralized cooperative co-evolutionary algorithm (CCEA) that modulates the number of agents' policies modification to find a compromise between evaluation quality and execution speed. This modulation also helps in completing tasks where improving team performance requires multiple agents to update in a synchronized manner. We use a multi-robot resource selection problem and a simulated multi-rover exploration problem to provide experimental validations of the proposed algorithms.

Avec leur prolifération dans l'industrie et la vie quotidienne, les robots sont désormais de plus en plus amenés à interagir entre eux. Cette thèse traite du problème de la coordination entre robots dans un contexte où ils doivent apprendre leur politique de contrôle de manière autonome. Ces politiques sont optimisées avec des algorithmes d'apprentissage automatique qui tirent parti d'une fonction de récompense pour augmenter progressivement les performances. La structure de cette fonction va influencer significativement la dynamique d'apprentissage et donc les comportements possibles des agents. Nous étudions d'abord les systèmes où les agents reçoivent individuellement une récompense locale adaptée à leurs actions et doivent converger vers un comportement collectif optimal. Nous introduisons un algorithme d'apprentissage évolutif distribué appelé Horizontal Information Transfer (HIT) qui s'attaque à ce problème particulier. Les agents interagissent en ligne dans leur environnement et doivent apprendre leur politique de contrôle avec un algorithme évolutif embarqué et un système d'échange de paramètres. Il a l'avantage de faire face aux capacités de calcul et de communication limitées des robots à faible coût, qui sont souvent utilisés dans la robotique en essaim. Nous analysons les caractéristiques et la dynamique d'apprentissage de cet algorithme sur une tâche de recherche de nourriture. Nous étudions ensuite des systèmes où la récompense est donnée globalement à toute l'équipe. Ainsi, cette évaluation ne représente pas nécessairement la performance de chaque agent et il peut être difficile de calculer une contribution individuelle. Nous introduisons un algorithme co-évolutif coopératif centralisé (CCEA) qui module le nombre de modifications des politiques des agents pour trouver un compromis entre la qualité de l'évaluation et la vitesse d'exécution. Cette modulation aide également à effectuer des tâches où l'amélioration des performances de l'équipe nécessite la mise à jour de plusieurs agents de manière synchronisée. Nous utilisons un problème de sélection de ressources multi-robot et un problème d'exploration multi-rover simulé pour fournir des validations expérimentales des algorithmes proposés.

Individual and group learning dynamics in evolutionary collective robotics

Dynamique d'apprentissage individuel et collectif pour la robotique collective évolutionnaire

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager