Spiking neural networks for embedded event-based vision - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Spiking neural networks for embedded event-based vision

Réseaux de neurones impulsionnels pour la vision embarquée basée sur les événements

Résumé

In recent years, embedded computer vision has become omnipresent. It englobes tasks such as detection, recognition and tracking of visual elements, with applications in robotics (autonomous driving), industries (assessment of product quality, automatisation of repetitive tasks), security, customer experience, social networks, etc. This widespread impetus only reinforces the need to overcome the challenges posed by this area of research, which requires gargantuan energy consumption, high memory, and support for a wide range of algorithms. We believe a promising solution to these challenges can be found in the combined use of spiking neural networks (SNNs) and event-based cameras. SNNs consist of a bio-inspired artificial neural network aiming to mimic the dynamics of biological neurons by processing the information as spike trains. Event cameras are a novel type of bio-inspired visual sensor which generates asynchronous data according to pixel intensity changes. It is ideal for real-time applications, but the great amount of temporal information is challenging to process using standard computer vision models. Moreover, event data make a natural match for SNNs in terms of biological inspiration, energy savings, latency and memory use for dynamic visual data processing.However, the novelty of SNNs and event cameras leaves room for many improvements in terms of optimal preprocessing of data as well as how this data is processed, making the most of the particularities of these scientific concepts. In this thesis, we identified several questions related to this broad field of research, which we have condensed into two main topics. The first issue concerns the optimisation of the embedded preprocessing of event data acquired by an onboard camera to facilitate subsequent analysis. We propose three solutions: event data could either 1) be spatially or temporally reduced, either online or offline; 2) keep only salient elements and discard the rest; 3) the subject to foveation, as a bio-plausible compromise between the two previous solutions. We compared qualitatively and quantitatively the event data obtained after applying each preprocessing method to assess whether the trade-off between the amount of data (i.e. events) kept versus the relevance of information maintained is ideal. The second challenge is the exploitation of the SNN relevance to processing the specific chronology of event data in an embedded context. Overall, we hope to have made a valuable contribution to the exploitation of the unique advantages of combining SNNs and event cameras for embedded computer vision, especially concerning event data preprocessing.
La vision par ordinateur embarquée est récemment devenue omniprésente. Elle englobe des tâches telles que la détection, la reconnaissance et le suivi d'éléments visuels, avec des applications en robotique (conduite autonome), dans l'industrie (évaluation de la qualité des produits, automatisation de tâches répétitives), dans la sécurité, pour l'expérience client, dans les réseaux sociaux, etc. Cet engouement généralisé ne fait que renforcer la nécessité de surmonter les défis posés par ce domaine de recherche, à savoir une consommation d'énergie gargantuesque, une grande mémoire et la prise en charge d'un large éventail d'algorithmes. Nous pensons qu'une réponse prometteuse à ces défis peut être amenée par l'utilisation combinée de réseaux de neurones à impulsions (SNNs) et de caméras événementielles. Les SNNs sont des réseaux de neurones artificiels bio-inspirés qui visent à imiter la dynamique des neurones biologiques en traitant l'information sous forme de séries d'impulsions. Les caméras événementielles sont un nouveau type de capteur visuel bio-inspiré qui génère des données asynchrones en fonction des changements d'intensité des pixels. Elles sont idéales pour les applications en temps réel, mais la grande quantité d'informations temporelles qu'elles génèrent est difficile à traiter à l'aide de modèles traditionnels de vision par ordinateur. Cependant, les données événementielles se combinent naturellement aux SNNs en termes d'inspiration biologique, d'économie d'énergie, de latence et d'utilisation de la mémoire, pour le traitement dynamique des données visuelles.Cependant, la nouveauté des SNNs et caméras événementielles laisse place à de nombreuses améliorations en termes de prétraitement optimal des données ainsi que leur traitement subséquent, en tirant le meilleur parti des particularités de ces concepts scientifiques. Dans cette thèse, nous avons identifié plusieurs problématiques liées à ce vaste champ de recherche, que nous avons condensées en deux thèmes principaux. La première problématique concerne l'optimisation du prétraitement embarqué des données événementielles acquises par une caméra embarquée pour en faciliter l'analyse ultérieure. Nous proposons trois solutions : les événements pourraient soit 1) être réduits dans l'espace ou dans le temps, online ou offline ; 2) ne conserver que les éléments saillants et rejeter le reste ; 3) être soumis à un mécanisme de fovéation, selon un compromis bio-plausible entre les deux solutions précédentes. Nous avons comparé qualitativement et quantitativement les données obtenues après chaque méthode de prétraitement afin d'évaluer si le compromis entre la quantité de données (c'est-à-dire le nombre d'événements) conservées et la pertinence de l'information préservée est idéal. Le second défi est l'exploitation de l'adéquation des SNNs pour traiter la temporalité spécifique des événements dans un contexte embarqué. Dans l'ensemble, nous espérons avoir apporté une contribution utile à l'exploitation des avantages uniques de la combinaison des SNNs avec les caméras événementielles pour la vision par ordinateur embarquée, en particulier en ce qui concerne le prétraitement des données événementielles.
Fichier principal
Vignette du fichier
2023COAZ4070.pdf (23.5 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04393971 , version 1 (15-01-2024)

Identifiants

  • HAL Id : tel-04393971 , version 1

Citer

Amélie Gruel. Spiking neural networks for embedded event-based vision. Neural and Evolutionary Computing [cs.NE]. Université Côte d'Azur, 2023. English. ⟨NNT : 2023COAZ4070⟩. ⟨tel-04393971⟩
133 Consultations
15 Téléchargements

Partager

Gmail Facebook X LinkedIn More