Multi-agent reinforcement learning and object detection asstructured prediction - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Multi-agent reinforcement learning and object detection asstructured prediction

Apprentissage par renforcement multi-agent et détection d'objets par prédiction structurée

Résumé

This thesis explores the use of structured losses in two different domains. In the first contribution, we focus on multi-agent reinforcement learning (MARL), in environments that can be separated into several loosely coupled tasks. We set out to find policies that can generalize well to more agents and tasks than seen during training, effectively scaling up the size of problems that can betackled. Our solution assigns agents to tasks by approximately solving acentralized optimization problem whose objective function is parameterized by a neural network. We study how the expressivity of the optimization problem and that of the neural network influence the generalization capabilities of the model, and show that with the right choices, the policy can generalize to more than 5 times more agents than seen during training. In the second contribution we formulate object detection as a set prediction problem,and design a model that can effectively tackle this formulation. Our solution leverages a deep convolutional network, as is customary in computer vision, and a transformer encoder-decoder network, an architecture that has enabled significant progress innatural language processing. Crucially, our solution incorporates minimal inductive bias, thereby all eviating the need for hand-designed detection-specific components such as anchors or non-maximal suppression. With a comparable parameter budget, our model matches the performance of well-established and highly-optimized baselines such as Retinanet and Faster R-CNN on the challenging COCO detection dataset. Finally, we show that the method can be naturally extended to perform panoptic segmentation, where it out performs competing approaches, thus showing the versatility of the model.
Cette thèse explore l'utilisation de fonctions de perte structurées dans deux domaines distincts. Dans la première contribution, nous nous intéressons à l'apprentissage par renforcement multi-agent, dans le contexte d'environnements qui peuvent être séparés en plusieurs tâches faiblement dépendantes. On s'attache à trouver des politiques qui se généralisent à plus d'agents et de tâches que les scénarios d'entraînement, permettant ainsi d'augmenter la taille des problèmes qui peuvent être approchés. Notre solution affecte les agents aux tâches en résolvant un problème d'optimisation centralisé dont la fonction objectif est paramétrée par un réseau de neurones. On montre que l'expressivité du problème d'optimisation et celle du réseau de neurones influencent la capacité du modèle à généraliser, et qu'avec les bons choix, la politique peut généraliser à plus de 5 fois plus d'agents que pendant l'entraînement. Dans la seconde contribution, nous formulons la détection d'objets comme un problème de prédiction d'ensemble, et nous concevons un modèle dans cette optique. Notre solution utilise un réseau convolutionel profond, comme souvent en vision par ordinateur, et un encodeur-décodeur de Transformer, une architecture qui a récemment permis d'importants progrès en traitement du langage. Remarquablement, notre solution n'incorpore que peu de biais inductif, et ne nécessite donc pas de composants spécifiques à la détection d'objets, tels que les ancres de détection. Avec un nombre de paramètres comparable, notre modèle égale la performance de modèles de référence, tels que Retinanet et Faster R-CNN sur le dataset de détection COCO. Pour finir, nous montrons que la méthode peut naturellement être étendue à la segmentation panoptique, où elle surpasse les approches concurrentes, démontrant ainsi sa généralité.
Fichier principal
Vignette du fichier
2020UPSLD040.pdf (9.62 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03540662 , version 1 (24-01-2022)
tel-03540662 , version 2 (24-01-2022)
tel-03540662 , version 3 (24-01-2022)
tel-03540662 , version 4 (24-01-2022)
tel-03540662 , version 5 (24-01-2022)

Identifiants

  • HAL Id : tel-03540662 , version 5

Citer

Nicolas Carion. Multi-agent reinforcement learning and object detection asstructured prediction. Computer Vision and Pattern Recognition [cs.CV]. Université Paris sciences et lettres, 2020. English. ⟨NNT : 2020UPSLD040⟩. ⟨tel-03540662v5⟩
188 Consultations
222 Téléchargements

Partager

Gmail Facebook X LinkedIn More