Can Deep Reinforcement Learning solve the portfolio allocation problem ? - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Can Deep Reinforcement Learning solve the portfolio allocation problem ?

Le Deep Reinforcement Learning peut-il résoudre le problème d'allocation de portefeuille ?

Résumé

Models developed in portfolio theory are mainly based on statistical and economic principles. At the origin, there is a model. From this model or representation, assuming no arbitrage and frictionless markets, we infer relations between assets. Hence, if we start from the principle of representation of risk by Sharpe ratio, we end up with the Markowitz portfolio. These principles are based on cognitive biases in terms of risk (risk reduced to variance) and limitations in terms of optimization (quadratic optimization). If we want to get rid of it and apply automatic learning principles to financial markets, we no longer need to choose a model. We simply seek to find relationships between the data without a priori. In this thesis, we examine the central question of whether deep reinforcement learning (DRL) can provide new methods of portfolio allocation. We argue that DRL gives new methods of portfolio allocation that directly maps states to action and hence are able to dynamically adapt to changing environment much faster than traditional methods. We begin by recalling the basics of DRL before revisiting the issue of portfolio allocation. This allows us to formulate the questions posed and addressed by this thesis, namely how to use additional information with respect to the first two moments of the portfolio assets and how to validate that this approach generalizes outside the learning period. This work addresses the question of the practical use of DRL on non-stationary and highly noisy data. We apply the DRL to the case of multi-asset allocation in order to identify the key points of the approach. We empirically show that DRL makes it possible to go beyond the state of the art of portfolio allocation methods and to better adapt to market conditions. The choice of convolutional network architecture better captures the dependence between market data and adapts to changing situations such as the Covid crisis. We extend the use of DRL to a quantitative volatility targeting model selection problem, thus developing a so-called model-based approach. We then explain why the DRL approach generalizes the classical quantitative approaches of portfolio theory by extending the optimization problem to a multi-period optimal control problem. We show that DRL methods perform variance reductions and analyze the particular case of the critical actor method by interpreting it as the resolution of a Monte Carlo simulation problem by an optimal control variable. We also study the similarities between reinforcement learning and supervised learning. In particular, we show that gradient descent reinforcement learning is in fact supervised learning with a cross-entropy loss function and labels equal to optimal rewards. This result, although theoretical due to the impossibility of knowing in advance the optimal rewards, establishes a deep link between the two learning methods. We end this thesis with the analysis of the hyperparameter learning method by adaptation of the covariance matrix and evolutionary strategy. Thanks to the laws of Wishart and inverse Wishart, combined with the Bayesian sense of the multivariate normal, we establish formulas similar to those found empirically in the CMA-ES algorithm. This demonstrates that CMAES is in a hidden way a Bayesian optimization by multivariate normal law and conjugate law whose modelling objective is the distribution of the optimum. We conclude this thesis by summarizing our contributions and present future developments, whether by natural extensions or new questions that this thesis raises.
Les modèles développés en théorie du portefeuille reposent principalement sur des principes statistiques et économiques. A la base, il y a un modèle. De celui-ci, en supposant les marchés financiers rationnels et sans arbitrage, on en déduit des relations. Ainsi si on part du principe de représentation du risque par ratio de Sharpe, on aboutit au portefeuille de Markowitz. Ces principes reposent sur des biais cognitifs en termes de risque (risque réduit à la variance) et sur des limitations en termes d'optimisation (optimisation quadratique). Si on souhaite s'en affranchir et appliquer des principes d'apprentissage automatique aux marchés financiers, on n'a plus besoin de faire de choix de modèle. On cherche simplement à trouver des relations entre les données sans à priori. Dans cette thèse, nous examinons la question centrale de savoir si l'apprentissage par renforcement profond (DRL) peut fournir de nouvelles méthodes d'allocation de portefeuille. Nous soutenons que le DRL offre de nouvelles méthodes reliant directement états et action et sont donc capables de s'adapter dynamiquement à un environnement changeant plus rapidement. Nous commençons par rappeler les fondements du DRL avant de revoir la question de l'allocation de portefeuille. Ceci nous permet de formuler les questions posées et adressées par cette thèse, à savoir comment utiliser des informations supplémentaires par rapport aux deux premiers moments des actifs du portefeuille et comment valider que cette approche se généralise en dehors de la période d'apprentissage. Ces travaux adressent la question de l’utilisation pratique du DRL sur données non stationnaires et fortement bruitées. Nous appliquons le DRL au cas d'allocation multi-actifs afin de cerner les points clefs de l'approche. Nous montrons empiriquement que le DRL permet de dépasser l'état de l'art des méthodes d’allocation de portefeuille et de mieux s'adapter aux conditions de marché. Le choix de l'architecture par réseaux de convolutions capture mieux la dépendance entre les données de marché et s'adapte à des changements de situation comme la crise du Covid. Nous étendons l'usage du DRL à un problème de sélection de modèles quantitatifs de ciblage de volatilité, développant ainsi une approche dite à base de modèles. Nous expliquons ensuite pourquoi l'approche DRL généralise les approches quantitatives classiques de théorie du portefeuille en étendant le problème d'optimisation à un problème de contrôle optimal multi périodes. Nous montrons que les méthodes DRL réalisent des réductions de variance et analysons le cas particulier de la méthode acteur critique en l'interprétant comme la résolution d'un problème de simulation de Monte Carlo par variable de contrôle optimal. Nous étudions aussi les similitudes entre l'apprentissage par renforcement et l'apprentissage supervisé. Nous exhibons notamment que l'apprentissage par renforcement par descente de gradient est en fait un apprentissage supervisé avec une fonction de perte d'entropie croisée et des labels égaux aux récompenses optimales. Ce résultat bien que théorique en raison de l'impossibilité de connaitre à l'avance les récompenses optimales établit un lien profond entre les deux méthodes d'apprentissage. Nous terminons cette thèse sur l'analyse de la méthode d'apprentissage des hyperparamètres par adaptation de la matrice de covariance et stratégie évolutionnaire. Grace aux lois de Wishart et Wishart inverse, conjuguées au sens Bayesien de la normale multivariée, nous établissons des formules similaires à celles trouvées empiriquement dans l'algorithme CMAES. Ceci démontre que CMAES est de façon cachée une optimisation Bayesienne par loi normale multivariée et loi conjuguée dont l'objectif de modélisation est la distribution de l'optimum. Nous concluons cette thèse en résumant nos contributions et présentons des développements futurs, que ce soit par des prolongements naturels ou des questions nouvelles que cette thèse suscite.
Fichier principal
Vignette du fichier
2023UPSLD030.pdf (5.69 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04397754 , version 1 (16-01-2024)

Identifiants

  • HAL Id : tel-04397754 , version 1

Citer

Eric Benhamou. Can Deep Reinforcement Learning solve the portfolio allocation problem ?. Other [cs.OH]. Université Paris sciences et lettres, 2023. English. ⟨NNT : 2023UPSLD030⟩. ⟨tel-04397754⟩
51 Consultations
5 Téléchargements

Partager

Gmail Facebook X LinkedIn More