Supervised learning for distribution of centralised multiagent patrolling strategies

Mehdi William Othmani-Guibourg

Résumé

For nearly two decades, patrolling has received significant attention from the multiagent community. Multiagent patrolling (MAP) consists in modelling a patrol task to optimise as a multiagent system. The problem of optimising a patrol task is to distribute the most efficiently agents over the area to patrol in space and time, which constitutes a decision-making problem. A range of algorithms based on reactive, cognitive, reinforcement learning, centralised and decentralised strategies, amongst others, have been developed to make such a task ever more efficient. However, the existing patrolling-specific approaches based on supervised learning were still at preliminary stages, although a few works addressed this issue. Central to supervised learning, which is a set of methods and tools that allow inferring new knowledge, is the idea of learning a function mapping any input to an output from a sample of data composed of input-output pairs; learning, in this case, enables the system to generalise to new data never observed before. Until now, the best online MAP strategy, namely without precalculation, has turned out to be a centralised strategy with a coordinator. However, as for any centralised decision process in general, such a strategy is hardly scalable. The purpose of this work is then to develop and implement a new methodology aiming at turning any high-performance centralised strategy into a distributed strategy. Indeed, distributed strategies are by design resilient, more adaptive to changes in the environment, and scalable. In doing so, the centralised decision process, generally represented in MAP by a coordinator, is distributed into patrolling agents by means of supervised learning methods, so that each agent of the resultant distributed strategy tends to capture a part of the algorithm executed by the centralised decision process. The outcome is a new distributed decision-making algorithm based on machine learning. In this dissertation therefore, such a procedure of distribution of centralised strategy is established, then concretely implemented using some artificial neural networks architectures. By doing so, after having exposed the context and motivations of this work, we pose the problematic that led our study. The main multiagent strategies devised until now as part of MAP are then described, particularly a high-performance coordinated strategy, which is the centralised strategy studied in this work, as well as a simple decentralised strategy used as reference for decentralised strategies. Among others, some existing strategies based on supervised learning are also described. Thereafter, the model as well as certain of key concepts of MAP are defined. We also define the methodology laid down to address and study this problematic. This methodology comes in the form of a procedure that allows decentralising any centralised strategy by means of supervised learning. Then, the software ecosystem we developed for the needs of this work is also described, particularly PyTrol a discrete-time simulator dedicated to MAP developed with the aim of performing MAP simulation, to assess strategies and generate data, and MAPTrainer, a framework hinging on the PyTorch machine learning library, dedicated to research in machine learning in the context of MAP. Two MAP strategies relying on Long Short-Term Memory (LSTM) networks are then defined: RLPM and RAMPAGER. In those strategies, the LSTM network is used as a predictor that agents use to select the next place to visit in the area to patrol. It is trained over data generated by the centralised strategy. We also show that the stochastic selection of the next place to visit leads to better performance. RAMPAGER, which relies on analytical initialisation of the LSTM network guided by the structure of the area to patrol, turns out to be the best decentralised strategy based on LSTM networks. We then present a new generic type of strategy, called Idleness Estimator, relying on value estimation. In the strategies of this type, each agent embeds an estimator to estimate the time elapsed since the latest visit of any agent on each place to monitor. This estimator is trained over data generated by a high-performance centralised strategy as previously. Different strategies can then be derived according to the used estimator. In this dissertation we study three types of estimators: artificial neural networks, and particularly MultiLayer Perceptrons (MLPs), a linear model, and the mean. An interaction scheme is lastly set up to make agents communicate and improve their individual estimate through interaction. Finally, the Idleness Estimator strategies, either with or without interaction, turn out to be the best decentralised strategies studied in this dissertation.

Depuis presque deux décennies, la tâche de la patrouille a fait l'objet d'une attention toute particulière de la part de la communauté multiagent. La patrouille multiagent consiste à modéliser comme un système multiagent une tâche de patrouille à optimiser. Cette optimisation revient à répartir dans l'espace et le temps les agents patrouilleurs sur la zone à surveiller, cela le plus efficacement possible; un tel problème constitue par là même un problème de décision. Un large éventail d'algorithmes basés sur des stratégies d’agent réactives, cognitives, d’apprentissage par renforcement, centralisées et décentralisées, entre autres, ont été développés pour rendre les stratégies de patrouille toujours plus performantes. Cependant, les approches existantes basées sur de l'apprentissage supervisé avaient peu été étudiées jusqu’à présent, bien que quelques travaux aient abordé cette question. L’idée principale et sous-jacente à l'apprentissage supervisé, qui n’est rien de plus qu’un ensemble de méthodes et d'outils permettant d’inférer de nouvelles connaissances, est d’apprendre une fonction associant à tout élément en entrée un élément en sortie, à partir d'un ensemble de données composé de paires d'éléments entrées-sorties; l'apprentissage, dans ce cas, permet au système de faire de la généralisation à de nouvelles données jamais observées auparavant. Jusqu'à présent, la meilleure stratégie de patrouille multiagent en ligne, à savoir sans calcul préalable, s'est avérée être une stratégie centralisée à coordinateur. Cependant, comme pour tout processus de décision centralisé généralement, une telle stratégie est difficilement échelonnable. L'objectif de ce travail est alors de développer et de mettre en œuvre une nouvelle méthodologie visant à transformer toute stratégie centralisée performante en stratégie distribuée, c'est-à-dire par nature résiliente, plus adaptative aux changements de l'environnement et échelonnable. Ce faisant, le processus de décision centralisé, généralement représenté par un coordinateur dans la patrouille multiagent, est distribué sur les agents patrouilleurs au moyen de méthodes d’apprentissage supervisé, de sorte que les agents de la stratégie distribuée résultante tendent chacun à capturer ou cristalliser une partie de l’algorithme exécuté par le processus de décision centralisé. Le résultat est alors un nouveau algorithme de prise de décision distribué, qui repose sur de l’apprentissage automatique. Dans cette thèse, une telle procédure de distribution de stratégie centralisée est établie, puis concrètement mise en œuvre en utilisant certaines architectures de réseaux de neurones. Ainsi, après avoir exposé le contexte et les motivations, nous posons la problématique étudiée. Les principales stratégies multiagent élaborées jusqu'à présent dans le cadre de la patrouille multiagent sont ensuite décrites, en particulier une stratégie centralisée à haute performance qui est la stratégie centralisée à distribuer ici étudiée, ainsi qu’une stratégie décentralisée assez simple qui est utilisée comme référence pour les stratégies décentralisées. Entre autres, quelques stratégies basées sur de l’apprentissage supervisé sont aussi décrites. Ensuite, le modèle ainsi que certains concept fondamentaux du problème de la patrouille multiagent sont définis. Nous définissons également la méthodologie établie pour aborder et étudier la problématique de cette thèse; méthodologie permettant de décentraliser toute stratégie centralisée par le biais de l’apprentissage supervisé. L'écosystème informatique que nous avons développé pour les besoins de ce travail est également décrit, notamment PyTrol, un simulateur à temps discret dédié à la patrouille multiagent développé dans le but d'effectuer des simulations de patrouille, d'évaluer des stratégies et de générer des données, et MAPTrainer, un framework s'appuyant sur la bibliothèque d’apprentissage automatique PyTorch, dédié à l’étude de l’apprentissage automatique dans le cadre de la patrouille multiagent. Deux stratégies s'appuyant sur des réseaux Long Short-Term Memory (LSTM) sont ensuite définies : RLPM et RAMPAGER. Dans ces stratégies, un réseau LSTM est utilisé comme prédicteur que les agents utilisent pour sélectionner de manière stochastique la prochaine place à visiter sur la zone à patrouiller. Le réseau LSTM est entraîné sur des données générées par la stratégie centralisée. RAMPAGER, qui s'appuie sur une initialisation analytique du réseau LSTM — initialisation guidée par la structure de la zone à patrouiller — s’avère être la meilleure stratégie décentralisée basée sur des réseaux LSTM. Nous présentons ensuite un nouveau type générique de stratégie, appelé Idleness Estimator, qui repose sur de l'estimation d’état. Dans les stratégies de ce type, chaque agent embarque un estimateur pour estimer le temps écoulé depuis la dernière visite sur chaque centre d’intérêt à surveiller. Cet estimateur est entraîné à partir de données générées par une stratégie centralisée très performante, comme précédemment. Différentes stratégies peuvent alors être obtenues en fonction de l'estimateur utilisé. Dans cette thèse, nous étudions trois types d'estimateurs : des réseaux de neurones artificiels, et particulièrement les réseaux de type perceptron multicouche, un modèle linéaire et la moyenne. Enfin, un système d'interaction est mis en place pour permettre aux agents de communiquer et d'améliorer leur estimation individuelle au moyen de l'interaction. Finalement, les stratégies de type Idleness Estimator, que ce soit avec et sans interaction, s'avèrent être les meilleures stratégies décentralisées étudiées dans cette thèse.

Supervised learning for distribution of centralised multiagent patrolling strategies

Apprentissage supervisé pour la répartition de stratégies de patrouille multiagent centralisées

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager