Language-guided navigation and manipulation in robotics using transformers. - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Language-guided navigation and manipulation in robotics using transformers.

Navigation et manipulation guidées par le langage en robotique grâce aux transformers.

Résumé

Recent progress in machine learning has enabled groundbreaking improvements notably in computer vision, natural language processing, and robotics. Can we go one step further and combine these research fields? This would allow new applications, such as language-guided robotics, where a robot must follow instructions provided by an operator. While people learn to follow natural language instructions from their childhood, the same task is difficult for robots. Current challenges include (i) the limited amount of training data, (ii) the multiple levels of reasoning, and (iii) the multi-dimensional continuous action space. The goal of this thesis is to improve language-guided robotics by addressing these challenges. We break down the difficulty of language-guided robotics by considering two types of tasks: (i) vision-and-language navigation, where a mobile robot must go to a target location, and (ii) vision-and-language manipulation, where a robotic arm should manipulate objects on a tabletop. Our contributions are the following: (i) we address the scarcity of training data and develop an efficient pre-training procedure based on the new BnB dataset, (ii) we propose a hierarchical approach based on the Transformer architecture to encode several layers of abstractions, and (iii) we propose a new method predicting continuous and multi-dimensional actions for solving a large number of robotics tasks on a tabletop. Methods developed in this thesis have been tested in photo-realistic simulators and on a real-world robot. They have outperformed the state-of-the-art performance on a dozen of benchmarks.
Les progrès réalisés dans le domaine de l’apprentissage automatique ont permis des percées importantes, notamment en vision par ordinateur, en traitement du langage naturel et en robotique. Peut-on aller plus loin et combiner ces domaines de recherche ? Cela développera de nouvelles applications, comme la robotique guidée par le langage, où un robot doit suivre les instructions fournies par un opérateur. Alors que les humains apprennent à suivre des instructions dès leur enfance, la même tâche est difficile pour des robots, et cela pour plusieurs raisons: (i) le manque de données d’entraînements, (ii) les raisonnements faits sur multiples niveaux d’abstraction, et (iii) l’espace d’actions ayant une haute dimension. L’objectif de cette thèse est d’améliorer la robotique guidée par le langage en relevant ces défis. Nous décomposons la difficulté de la robotique guidée par le langage en considérant deux types de tâches : (i) un robot mobile doit se rendre à un endroit cible décrit par des instructions ; (ii) les instructions décrivent une séquence d’actions qu’un bras robotique doit opérer sur des objets placés sur une table. Nos contributions sont les suivantes : (i) pour résoudre le manque de données d’entraînement, nous avons développé une procédure efficace de pré-entraînement basé sur le nouveau jeu de données BnB, (ii) nous avons construit de nouvelles architec- tures neuronales basées sur une approche hiérarchique pour encoder plusieurs niveaux d’abstractions, et (iii) nous avons proposé une nouvelle méthode pour prédire des actions continus et en sur plusieurs dimensions pour résoudre un grand nombre de tâches.
Fichier principal
Vignette du fichier
PhD_Thesis_Guhur-3.pdf (82.81 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Licence : CC BY NC ND - Paternité - Pas d'utilisation commerciale - Pas de modification

Dates et versions

tel-04125019 , version 1 (11-06-2023)

Licence

Paternité

Identifiants

  • HAL Id : tel-04125019 , version 1

Citer

Pierre-Louis Guhur. Language-guided navigation and manipulation in robotics using transformers.. Computer Science [cs]. Inria; Ecole Normale Supérieure, 2023. English. ⟨NNT : ⟩. ⟨tel-04125019⟩
144 Consultations
1 Téléchargements

Partager

Gmail Facebook X LinkedIn More