Réseaux de neurones impulsionnels appliqués à la vision par ordinateur - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Computer vision with spiking neural network

Réseaux de neurones impulsionnels appliqués à la vision par ordinateur

Résumé

Artificial neural networks (ANN) have become a must-have technique in computer vision, a trend that started during the 2012 ImageNet challenge. However, this success comes with a non-negligible human cost for manual data labeling, very important in model learning, and a high energy cost caused by the need for large computational resources. Spiking Neural Networks (SNN) provide solutions to these problems. It is a particular class of ANNs, close to the biological model, in which neurons communicate asynchronously by representing information through spikes. The learning of SNNs can rely on an unsupervised rule: the STDP. It modulates the synaptic weights according to the local temporal correlations observed between the incoming and outgoing spikes. Different hardware architectures have been designed to exploit the properties of SNNs (asynchrony, sparse and local operation, etc.) in order to design low-power solutions, some of them dividing the cost by several orders of magnitude. SNNs are gaining popularity and there is growing interest in applying them to vision. Recent work shows that SNNs are maturing by being competitive with the state of the art on "simple" image datasets such as MNIST (handwritten numbers) but not on more complex datasets. However, SNNs can potentially stand out from ANNs in video processing. The first reason is that these models incorporate an additional temporal dimension. The second reason is that they lend themselves well to the use of event-driven cameras. They are bio-inspired sensors that perceive temporal contrasts in a scene, in other words, they are sensitive to motion. Each pixel can detect a light variation (positive or negative), which triggers an event. Coupling these cameras to neuromorphic chips allows the creation of totally asynchronous and massively parallelized vision systems. The objective of this thesis is to exploit the capabilities offered by SNNs in video processing. In order to explore the potential offered by SNNs, we are interested in motion analysis and more particularly in motion direction estimation. The goal is to develop a model capable of learning incrementally, without supervision and with few examples, to extract spatiotemporal features. We have therefore performed several studies examining the different points mentioned using synthetic event datasets. We show that the tuning of the SNN parameters is essential for the model to be able to extract useful features. We also show that the model is able to learn incrementally by presenting it with new classes without deteriorating the performance on the mastered classes. Finally, we discuss some limitations, especially on the weight learning, suggesting the possibility of more delay learning, which are still not very well exploited and which could mark a break with ANNs.
Les réseaux de neurones artificiels (RNA) sont devenus des techniques incontournables en vision par ordinateur, cette tendance ayant débuté lors du challenge ImageNet de 2012. Cependant, ce succès s'accompagne d'un coût humain non-négligeable pour l'étiquetage manuel des données, très important dans l'apprentissage des modèles et d'un coût énergétique élevé causé par le besoin de ressources de calcul importantes. Les réseaux de neurones impulsionnels (Spiking Neural Network, SNN) apportent des solutions à ces problématiques. C'est une classe particulière des RNAs, proche du modèle biologique, dans lequel les neurones communiquent de manière asynchrone en représentant l'information via des impulsions (spikes). L'apprentissage des SNN peu reposer sur une règle non supervisée : la STDP. Elle module les poids synaptiques en fonction des corrélations temporelles locales constatées entre les impulsions entrantes et sortantes. Différentes architectures matérielles ont été conçues dans le but d'exploiter les propriétés des SNN (asynchronie, opération éparse et locale, etc.) afin de concevoir des solutions peu énergivores, certaines divisant le coût de plusieurs ordres de grandeur. Les SNNs gagnent en popularité et il y a un intérêt croissant à les appliquer à la vision. Des travaux récents montrent que les SNNs acquièrent en maturité en étant compétitifs par rapport à l'état de l'art sur des datasets d'images "simples" tels que MNIST (chiffres manuscrits) mais pas sur des datasets plus complexes. Cependant, les SNNs peuvent potentiellement se démarquer des RNAs dans le traitement de vidéos. La première raison est que ces modèles intègrent une dimension temporelle en plus. La deuxième raison est qu'ils se prêtent bien à l'utilisation des caméras événementielles. Ce sont des capteurs bio-inspirés qui perçoivent les contrastes temporels d'une scène, autrement dit, ils sont sensibles au mouvement. Chaque pixel peut détecter une variation lumineuse (positive ou négative), ce qui déclenche un événement. Coupler ces caméras aux puces neuromorphiques permet de créer des systèmes de vision totalement asynchrones et massivement parallélisés. L'objectif de cette thèse est d'exploiter les capacités offertes par les SNNs dans le traitement vidéo. Afin d'explorer le potentiel offert par les SNNs, nous nous sommes intéressés à l'analyse du mouvement et plus particulièrement à l'estimation de la direction du mouvement. Le but est de développer un modèle capable d'apprendre incrémentalement, sans supervision et avec peu d'exemples, à extraire des caractéristiques spatio-temporelles. Nous avons donc effectué plusieurs études examinant les différents points mentionnés à l'aide de jeux de données événementielles synthétiques. Nous montrons que le réglage des paramètres des SNNs est essentiel pour que le modèle soit capable d'extraire des caractéristiques utiles. Nous montrons aussi que le modèle est capable d'apprendre de manière incrémentale en lui présentant des classes inédites sans détérioration des performances sur les classes maîtrisées. Pour finir, nous évoquerons certaines limites, notamment sur l'apprentissage des poids en suggérant la possibilité d'apprendre plutôt les délais, encore peu exploités et qui pourrait marquer davantage la rupture face aux RNAs.
Fichier principal
Vignette du fichier
These_OUDJAIL_Veis.pdf (8.45 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04139346 , version 1 (23-06-2023)

Identifiants

  • HAL Id : tel-04139346 , version 1

Citer

Veïs Oudjail. Réseaux de neurones impulsionnels appliqués à la vision par ordinateur. Vision par ordinateur et reconnaissance de formes [cs.CV]. Université de Lille, 2022. Français. ⟨NNT : 2022ULILB048⟩. ⟨tel-04139346⟩
64 Consultations
55 Téléchargements

Partager

Gmail Facebook X LinkedIn More