Supervised learning in binary dynamical physical systems through energy minimization - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Supervised learning in binary dynamical physical systems through energy minimization

Apprentissage supervisé dans les systèmes physiques dynamiques binaires grâce à la minimisation de l'énergie

Résumé

Deep learning makes it possible to achieve performances that were previously unattainable, whether for image classification, speech processing or text generation. These performances have been made possible by the joint use of deep neural networks and an optimization algorithm that calculates the gradient of a global cost function computed at the output of the network (backpropagation) which allows the emergence of a detection hierarchy of the input data characteristics. However, the training of neural networks, whose number of parameters is dramatically increasing, on standard digital hardware based on the Von Neumann architecture, is extremely inefficient from an electrical energy point of view since one must continuously transfer the values of the parameters from the memory to the processor. Neuromorphic computing is a low-power and fast alternative to this standard hardware by proposing to physically bring together memory and computing elements. However, hardware implementations still lack algorithms that allow them to reach the performances offered by an optimization based on the computation of the gradient of a global cost function that avoids the energy overhead caused by the complex circuits realizing backpropagation. Equilibrium Propagation (EP) is a learning algorithm that computes the gradient of a global cost function as an alternative to backpropagation. EP allows to realize the two learning phases: the inference phase and the backpropagation phase thanks to the property of physical systems that evolve towards their most probable state which is also the one of minimum energy. The learning rule prescribed by EP is local and makes EP a good candidate to train neuromorphic hardware implementations without large energy overhead. In practice, no large-scale hardware implementation trained by EP has been demonstrated yet. Indeed, the emerging devices considered for implementation are still experimental and therefore suffer from a high variability that prevents on-chip training. In this thesis we demonstrate that we can train with EP an artificial neural network whose synaptic weights and neural activation functions are binarized. This allows us to consider the use of emergent devices in a binary regime that considerably reduces their variability, compatible with on-chip learning. These results may also allow the design of standard digital chips dedicated to the training of binary neural networks on edge terminals. We then show that we can apply EP to a physical system that is energy-based by nature: an Ising Machine (IM). The DWave IM, through the quantum annealing algorithm, successively minimizes the energy of the two EP phases. We successfully demonstrate a training of a fully-connected architecture on the IM. We also take advantage of the chip layout to perform convolutions and show that we can train a convolutional network on the IM with EP. This work paves the way to supervised on-chip training of non-conventional physical systems by freeing itself from both the experimental nature of nano devices considered for low-power implementations and from the actual physical implementation since EP is adapted to train neural network architectures that fit the targeted hardware.
L'apprentissage profond permet d'atteindre des performances jusqu'alors inaccessibles, que ce soit pour de la classification d'images, de la compréhension de parole ou de la génération de texte. Ces performances ont été permises par l'utilisation conjointe de réseaux de neurones profonds et d'un algorithme d'optimisation qui calcule le gradient d'une fonction de coût globale calculée à la sortie du réseau (rétropropagation du gradient) qui permet de faire émerger une hiérarchie de détection des caractéristiques de la donnée d'entrée. Cependant, l'entrainement des réseaux de neurones, dont le nombre de paramètres augmente de façon dramatique, avec du matériel digital standard basé sur l'architecture Von Neumann est extrêmement inefficace d'un point de vue de la consommation énergétique puisque l'on doit continuellement transférer les valeurs des paramètres de la mémoire au processeur. Le calcul neuromorphique se pose en alternative basse consommation et rapide à ce matériel standard en proposant de rapprocher physiquement mémoire et éléments de calcul. Cependant, les implémentations matérielles manquent encore aujourd'hui d'algorithmes qui leur permettent d'atteindre les performances offertes par une optimisation basée sur le calcul du gradient d'une fonction de coût globale tout en évitant le surcoût énergétique dû aux circuits complexes qui réalisent la rétropropagation du gradient. Equilibrium Propagation (EP) est un algorithme d'apprentissage alternatif à la rétropropagation du gradient qui calcule le gradient d'une fonction de coût globale. EP permet de réaliser les deux phases d'apprentissage : la phase d'inférence et la phase de rétro-propagation des erreurs grâce à la propriété des systèmes physiques qui évoluent vers leur état le plus probable qui est aussi celui d'énergie minimale. La règle d'apprentissage prescrite par EP est locale et fait d'EP un bon candidat pour entrainer des implémentations matérielles neuromorphiques sans gros surcoût énergétique. En pratique, aucune implémentation matérielles grande échelle entraînée par EP n'a encore été démontrée. En effet, les dispositifs émergents envisagés pour les implémentations sont encore expérimentaux et souffrent donc d'une forte variabilité qui empêche l'entrainement sur puce. Dans cette thèse nous démontrons que nous pouvons entrainer avec EP un réseau de neurones artificiels dont les poids synaptiques et la fonction d'activation des neurones sont binarisés. Ceci permet d'envisager d'utiliser les dispositifs émergents dans un régime binaire qui réduit de façon considérable leur variabilité et autorise un apprentissage sur puce. Ces résultats peuvent également permettre de concevoir une puce digitale standard dédiée pour l'entrainement de réseaux de neurones binaires sur des dispositifs portables. Nous démontrons ensuite que nous pouvons appliquer EP à un système physique dont la fonction d'énergie est hautement paramétrisable : une Machine d'Ising (MI). La MI de DWave, par le biais de l'algorithme de recuit quantique, minimise successivement l'énergie des deux phases d'EP. Nous avons réussi à entrainer une architecture entièrement connectée sur la MI. Nous tirons également parti de la connectivité de la puce pour réaliser des convolutions et montrons que l'on peut entrainer un réseau convolutionel sur la MI avec EP. Ces travaux ouvrent la voie à l'entrainement supervisé sur puce de systèmes physiques non-conventionnels en s'affranchissant et de la nature expérimentale de nano-dispositifs envisagés pour des implémentations basse-consommation et de l'implémentation physique réelle puisque EP est adapté à entrainer des architectures de réseaux de neurones qui s'adaptent au matériel ciblé.
Fichier principal
Vignette du fichier
112114_LAYDEVANT_2022_archivage.pdf (16.6 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03956750 , version 1 (25-01-2023)

Identifiants

  • HAL Id : tel-03956750 , version 1

Citer

Jérémie Laydevant. Supervised learning in binary dynamical physical systems through energy minimization. Artificial Intelligence [cs.AI]. Université Paris-Saclay, 2022. English. ⟨NNT : 2022UPASP112⟩. ⟨tel-03956750⟩
200 Consultations
62 Téléchargements

Partager

Gmail Facebook X LinkedIn More