Design of optimization algorithms for large scale continuous problems : application on deep learning

Léo Souquet

Résumé

This last decade the complexity of the problems increased with the increase of the CPUs’ power and the decrease of memory costs. The appearance of clouds infrastructures provide the possibility to solve large scale problems. However, most of the exact and stochastic optimization algorithms see their performances go down with the increase of the dimension of the problems. Evolutionary approaches and other bio-inspired approaches were widely used to solve large scale problems without lot of success. Indeed, the complexity of large scale problems non convex functions comes from the fact that local minima (and maxima) are rare.In this thesis, we propose to tackle large scale problems by designing a new approach based on fractal decomposition of the search space using hyperspheres. This geometrical decomposition allows the algorithm to be intrinsically parallel for solving large scale problems. The proposed algorithm called Fractal Decomposition Algorithm (FDA). It is a deterministic algorithm with low complexity and easy to implement. FDA has been tested on several functions, compared with competing metaheuristics and showed good results on problems with dimensions from 50 to 1000. Its structure allows it to be naturally parallelized, which resulted in developing two new versions: PFDA for multi-threaded environments and MA-FDA for multi-nodes environments. Then, the proposed algorithm was adapted to solve multi-objective problems. Two algorithms were proposed: the first one is based on scalarization and has been distributed on multi-node architecture virtual environments known as containers. While the second approach is based on sorting non-dominated solutions.Moreover, we applied FDA to the optimization of the hyperparameters of deep learning architectures with a focus on Convolutional Neural Networks. We present an approach using bi-level optimization separating the architecture search composed of discrete parameters from hyperparameter optimization with the continuous parameters. This is motivated by the fact that automating the construction of deep neural architecture has been an important focus over recent years as doing it manually is very time consuming and prone to error.

Cette dernière décennie, la complexité des problèmes s'est accrue avec l'augmentation de la puissance des processeurs et la diminution des coûts de mémoire. L'apparition d'infrastructures textit{cloud} offre la possibilité de résoudre des problèmes en grandes dimensions. Cependant, la plupart des algorithmes d'optimisation exacts et stochastiques voient leurs performances diminuer avec l'augmentation de la dimension des problèmes. Les approches évolutionnaires et autres approches bio-inspirées ont été largement utilisées pour résoudre des problèmes à grande échelle sans grand succès. En effet, la complexité de ces problèmes aux fonctions non convexes vient du fait que les minima (et maxima) locaux sont rares. Dans cette thèse, nous proposons d'aborder des problèmes à grande échelle en concevant une nouvelle approche basée sur la décomposition fractale de l'espace de recherche par hypersphères. Cette décomposition géométrique permet à l'algorithme d'être intrinsèquement parallélisable. L'algorithme proposé est appelé textit{Fracal Decomposition Algorithm} (FDA). Il est déterministe, de faible complexité et facile à implémenter. FDA a été testé sur plusieurs fonctions, comparé aux métaheuristiques concurrentes et a montré de bons résultats sur des problèmes de dimensions allant de 50 à 1000. Sa structure lui permet d'être naturellement parallélisée, ce qui a permis de développer deux nouvelles versions : PFDA pour les environnements multi-threaded et MA-FDA pour les environnements multi-nœuds. Ensuite, l'algorithme proposé a été adapté pour résoudre des problèmes multi-objectifs. Deux algorithmes ont été proposés : le premier est basé sur la scalarisation et a été distribué sur une architecture multi-nœuds grâce à des conteneurs. La seconde approche est basée sur le tri de solutions non dominées. De plus, nous avons appliqué FDA à l'optimisation des hyperparamètres des architectures d'apprentissage profond en mettant l'accent sur les réseaux neuronaux convolutionnels. Nous présentons une approche utilisant l'optimisation à deux niveaux séparant la recherche d'architecture composée de paramètres discrets de l'optimisation des hyperparamètres avec les paramètres continus. Ceci est motivé par le fait que l'automatisation de la construction de l'architecture neuronale profonde a été une priorité importante ces dernières années, car le travail manuel prend beaucoup de temps et est sujet aux erreurs.

Design of optimization algorithms for large scale continuous problems : application on deep learning

Conception d'algorithmes d'optimisation pour problèmes en grandes dimensions : application au Deep Learning

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager