Apprentissage actif sous contraite de budget en robotique et en neurosciences computationnelles : Localisation robotique et modélisation comportementale en environnement non stationnaire.

Nassim Aklil

Thèse Année : 2017

Budgeted active learning in robotics and computational neuroscience: robotics localization and behavioral modeling in non-stationary environments

Apprentissage actif sous contraite de budget en robotique et en neurosciences computationnelles : Localisation robotique et modélisation comportementale en environnement non stationnaire.

(1)

Nassim Aklil

Fonction : Auteur

Institut des Systèmes Intelligents et de Robotique

Résumé

Decision-making is a vast domain of scientific research, investigated by several different disciplines, such as in Neuroscience to understand the processes underlying decision-making in animals, in Robotics to propose efficient and rapid decision-making algorithms working in a variety of tasks. From the point of view of Neuroscience, this problem is usually solved with online processes through models of sequential decision-making based on the reinforcement learning framework. From the point of view of Robotics, the primary objective is to come up with efficient solutions that work in the real world. However, nowadays in Robotics, researches most often neglect what we can call the budget and which concerns the inherent material limitations of a robot such as the computation time, the limited number of possible actions, or the limited life duration of the robot's batteries.In this PhD work, we propose to introduce the notion of budget as an explicit constraint in Robotics learning processes applied to a localization task. To do so, we first test a model based on recent developments in statistical learning, which can treat data under budget constraints either by limiting the number of processed data or by fixing an explicit time limitation. Moreover, in order to progress towards a online version of this type of budgeted learning algorithms, we discuss possible inspirations from computational neuroscience. Within this framework, the alternation between information seeking for localization and decisions to move within the environment can be indirectly linked to the exploration-exploitation trade-off. We finally present our contribution to the modeling of this trade-off in animals performing a non-stationary task under different levels of uncertainty, and make the link with bandit methods.

La prise de décision est un domaine vaste et très étudié en sciences, que ce soit en neurosciences pour comprendre les processus sous tendant la prise de décision chez les animaux, qu’en robotique pour modéliser des processus de prise de décision efficaces et rapides dans des tâches en environnement réel. Du point de vue des neurosciences, ce problème est résolu online avec des modèles de prises de décision séquentiels basés sur l’apprentissage par renforcement. Du point de vue de la robotique, l’objectif premier est l’efficacité, dans le but d’être déployés en environnement réel. Cependant, dans le cas de la robotique, ce que l’on peut appeler le budget et qui concerne les limitations inhérentes au matériel, comme par exemple les temps de calculs, les actions limitées disponibles au robot ou la durée de vie de la batterie du robot, ne sont, le plus souvent, pas prises en compte à l’heure actuelle.Nous nous proposons dans ce travail de thèse d’introduire la notion de budget comme contrainte explicite dans les processus d’apprentissage robotique appliqués à une tâche de localisation en mettant en place un modèle basé sur des travaux récents développés en apprentissage statistique qui traitent les données sous contrainte de budget, en limitant l’apport en données ou en posant une contrainte de temps plus explicite.Dans le but d’envisager à plus long terme un fonctionnement online de ce type d’algorithmes d’apprentissage budgétisé, nous discutons aussi certaines inspirations possibles qui pourraient être prises du côté des neurosciences computationnelles. Dans ce cadre, l’alternance entre recherche d’information pour la localisation et la décision de se déplacer pour un robot peuvent être indirectement liés à la notion de compromis exploration-exploitation. Nous présentons notre contribution à la modélisation de ce compromis chez l’animal dans une tâche non stationnaire impliquant différents niveaux d’incertitude, et faisons le lien avec les méthodes de bandits manchot.

Mots clés

Reinforcement learning budgeted learning deep learning computational neuroscience exploration-exploitation trade-off policy gradient

Apprentissage par Renforcement Apprentissage budgétisé Apprentissage Profond Neurosciences Computationnelles Compromis exploration/exploitation

Domaines

Neurosciences Intelligence artificielle [cs.AI] Robotique [cs.RO] Psychologie et comportements

Fichier principal

Aklil_2017_PhDthesis.pdf (5.7 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Mehdi Khamassi : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-01746074

Soumis le : mercredi 3 janvier 2018-16:57:54

Dernière modification le : vendredi 24 mars 2023-14:53:06

Archivage à long terme le : mercredi 2 mai 2018-20:23:45

Dates et versions

tel-01746074 , version 1 (03-01-2018)

tel-01746074 , version 2 (29-03-2018)

Identifiants

HAL Id : tel-01746074 , version 1

Citer

Nassim Aklil. Apprentissage actif sous contraite de budget en robotique et en neurosciences computationnelles : Localisation robotique et modélisation comportementale en environnement non stationnaire.. Neurosciences. Université Pierre & Marie Curie - Paris 6, 2017. Français. ⟨NNT : ⟩. ⟨tel-01746074v1⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

481 Consultations

363 Téléchargements

Budgeted active learning in robotics and computational neuroscience: robotics localization and behavioral modeling in non-stationary environments

Apprentissage actif sous contraite de budget en robotique et en neurosciences computationnelles : Localisation robotique et modélisation comportementale en environnement non stationnaire.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager