Endless minds most beautiful : building open-ended linguistic autotelic agents with deep reinforcement learning and language models

Laetitia Teodorescu

Résumé

AI has made immense progress in the past 10 years, brought about by the increasing availability of computation, data, and by the invention of flexible algorithmic paradigms to leverage both: machine learning, neural networks, deep reinforcement learning, and large-scale self-supervised learning. However, current AI systems are still missing one of the fundamental drives of human beings: the drive to invent one’s own new problems and learn from striving to achieve them. This drive for creative curiosity is at the center of childrens’ play, scientists’ inventions, artists’ exploration of new forms, and underlies a large part of humanity’s cultural progress. In this thesis we use the framework of autotelic agents, agents that build a repertoire of skills by setting their own goals and learning to achieve them, to take first steps towards truly open-ended AI systems. We argue for language as a support for creative imagination of goals, and as a way to easily access open-ended behavior, as well as a domain where language goals are easy to ground and where we can stand on the shoulders of pretrained models to build capable agents without starting from scratch. We present several empirical contributions to this effect, among others: studying linguistic autotelic agents in the complex ScienceWorld text-based environment showing the impact of sampling goals of intermediate difficulty and appropriate social feedback; demonstrating how to collect open-ended goal repertoires with language models with LMA3, and in the realm of program synthesis, how to generate an open-ended diversity of programming puzzles with ACES, and finally how to frame autotelic learning as a 2-player game with Codeplay. We end the manuscript with a discussion of our results leading to a roadmap for future advances in linguistic autotelic agents and of how the framework could be pushed to build truly creative, open-ended AI systems.

L'IA a fait d'immenses progrès au cours des dix dernières années, grâce à la disponibilité croissante des calculs et des données, et à l'invention de paradigmes algorithmiques flexibles permettant d’en tirer parti : apprentissage automatique, réseaux neuronaux, apprentissage par renforcement profond et apprentissage auto-supervisé à grande échelle. Cependant, les systèmes d'IA actuels ne disposent toujours pas de l'une des motivations fondamentales de l'être humain : la motivation d'inventer ses propres problèmes et d'apprendre en tentant de les résoudre. Cet élan de curiosité créative est au centre des jeux des enfants, des inventions des scientifiques, de l'exploration de formes nouvelles par les artistes, et sous-tend une grande partie du progrès culturel de l'humanité. Dans cette thèse, nous utilisons le cadre des agents autotéliques, des agents qui construisent un répertoire de compétences en fixant leurs propres objectifs et en apprenant à les atteindre, pour faire de premiers pas vers des systèmes d'IA véritablement ouverts. Nous défendons le langage comme support pour l'imagination créative des buts, et comme moyen d'accéder facilement à un comportement ouvert, ainsi qu'un domaine où les objectifs de langage sont faciles à ancrer et où nous pouvons nous appuyer sur des modèles pré-entraînés pour construire des agents capables sans partir de zéro. Nous présentons plusieurs contributions empiriques à cet effet, entre autres : l'étude d'agents linguistiques autotéliques dans l'environnement textuel complexe de ScienceWorld montrant l'impact de l'échantillonnage d'objectifs de difficulté intermédiaire et d'un retour social approprié ; une démonstration de comment utiliser de grands modèles de langage pour l'invention créative de répertoire de buts ouverts avec LMA3; la recherche d’une diversité de puzzles de programmation avec ACES, et une perspective avec l'implémentation du cadre autotélique comme un jeu multi=agent avec Codeplay. Nous terminons le manuscrit par une discussion sur nos résultats qui débouchent sur un plan d’attaque pour de futures avancées dans le domaine des agents linguistiques autotéliques par une discussion sur la façon dont ce cadre pourrait être poussé à construire des systèmes d'IA véritablement créatifs et ouverts.

Endless minds most beautiful : building open-ended linguistic autotelic agents with deep reinforcement learning and language models

Agents autotéliques linguistiques ouverts avec apprentissage par renforcement profond et modèles de langage

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager