Spike sorting for massive neurophysiological datasets : sliding window working set strategy for the estimation of convolutional models in high dimension - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Spike sorting for massive neurophysiological datasets : sliding window working set strategy for the estimation of convolutional models in high dimension

Tri de potentiels d'action sur des données neurophysiologiques massives : stratégie d’ensemble actif par fenêtre glissante pour l’estimation de modèles convolutionnels en grande dimension

Laurent Dragoni
  • Fonction : Auteur
  • PersonId : 1163445
  • IdRef : 264308123

Résumé

In the nervous system, cells called neurons are specialized in the communication of information. Through the generation and propagation of electrical currents named action potentials, neurons are able to transmit information in the body. Given the importance of the neurons, in order to better understand the functioning of the nervous system, a wide range of methods have been proposed for studying those cells. In this thesis, we focus on the analysis of signals which have been recorded by electrodes, and more specifically, tetrodes and multi-electrode arrays (MEA). Since those devices usually record the activity of a set of neurons, the recorded signals are often a mixture of the activity of several neurons. In order to gain more knowledge from this type of data, a crucial pre-processing step called spike sorting is required to separate the activity of each neuron. Nowadays, the general procedure for spike sorting consists in a three steps procedure: thresholding, feature extraction and clustering. Unfortunately this methodology requires a large number of manual operations. Moreover, it becomes even more difficult when treating massive volumes of data, especially MEA recordings which also tend to feature more neuronal synchronizations. In this thesis, we present a spike sorting strategy allowing the analysis of large volumes of data and which requires few manual operations. This strategy makes use of a convolutional model which aims at breaking down the recorded signals as temporal convolutions between two factors: neuron activations and action potential shapes. The estimation of these two factors is usually treated through alternative optimization. Being the most difficult task, we only focus here on the estimation of the activations, assuming that the action potential shapes are known. Estimating the activations is traditionally referred to convolutional sparse coding. The well-known Lasso estimator features interesting mathematical properties for the resolution of such problem. However its computation remains challenging on high dimensional problems. We propose an algorithm based of the working set strategy in order to compute efficiently the Lasso. This algorithm takes advantage of the particular structure of the problem, derived from biological properties, by using temporal sliding windows, allowing it to scale in high dimension. Furthermore, we adapt theoretical results about the Lasso to show that, under reasonable assumptions, our estimator recovers the support of the true activation vector with high probability. We also propose models for both the spatial distribution and activation times of the neurons which allow us to quantify the size of our problem and deduce the theoretical complexity of our algorithm. In particular, we obtain a quasi-linear complexity with respect to the size of the recorded signal. Finally we present numerical results illustrating both the theoretical results and the performances of our approach.
Au sein du système nerveux, des cellules appelées neurones sont spécialisées dans la communication de l'information. À travers l'émission et la propagation de courants électriques nommés potentiels d'action, les neurones peuvent transmettre l'information dans le corps. Étant donné le rôle prééminent des neurones, afin de mieux comprendre le fonctionnement du système nerveux, une vaste gamme de méthodes ont été proposées pour l'étude de ces cellules. Dans cette thèse, nous nous intéressons à l'analyse de signaux ayant été enregistrés par des électrodes, et plus spécifiquement, des tétrodes et des multi-electrode arrays (MEA). Ces appareils mesurant en général l'activité d'un ensemble de neurones, les signaux enregistrés forment souvent un mélange de l'activité de plusieurs neurones. Afin de gagner plus d'information sur ce type de données, un pré-traitement crucial appelé tri de potentiels d'action est requis pour séparer l'activité de chaque neurone. Actuellement, la procédure générale de tri de potentiels d'action repose sur une procédure en trois étapes : seuillage, extraction de caractéristiques et partitionnement de données. Malheureusement cette méthodologie requiert un grand nombre d'opérations manuelles. De plus, elle devient encore plus difficile à mettre en oeuvre sur de grands volumes de données, en particulier pour des enregistrements de MEA qui ont tendance à présenter davantage de synchronisations de neurones. Dans cette thèse, nous présentons une stratégie de tri de potentiels d'action permettant l'analyse de grands volumes de données et qui requiert peu d'opérations manuelles. Cette stratégie utilise un modèle convolutionnel dont le but est de représenter les signaux mesurés en convolutions temporelles entre deux facteurs : les activations de neurones et les formes de potentiels d'action. L'estimation de ces deux facteurs est généralement traitée par optimisation alternée. Étant la tâche la plus difficile, nous nous concentrons ici sur l'estimation des activations, en supposant que les formes de potentiels d'action sont connues. Le célèbre estimateur Lasso présente d'intéressantes propriétés mathématiques pour la résolution d'un tel problème. Néanmoins son calcul demeure difficile sur des problèmes de grande taille. Nous proposons un algorithme basé sur la stratégie d'ensemble actif afin de calculer efficacement le Lasso. Cet algorithme exploite la structure particulière du problème, déduite de propriétés biologiques, en utilisant des fenêtres glissantes temporelles, lui permettant d'être appliqué en grande dimension. De plus, nous adaptons des résultats théoriques sur le Lasso pour montrer que, sous des hypothèses raisonnables, notre estimateur retrouve le support du vrai vecteur d'activation avec grande probabilité. Nous proposons également des modèles pour la distribution spatiale et des temps d'activations des neurones qui nous permettent de quantifier la taille du problème et de déduire la complexité temporelle théorique de notre algorithme. En particulier, nous obtenons une complexité quasi-linéaire par rapport à la taille du signal enregistré. Finalement nous présentons des expériences numériques illustrant à la fois les résultats théoriques et les performances de notre approche.
Fichier principal
Vignette du fichier
2022COAZ4016.pdf (2.75 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03774851 , version 1 (12-09-2022)

Identifiants

  • HAL Id : tel-03774851 , version 1

Citer

Laurent Dragoni. Spike sorting for massive neurophysiological datasets : sliding window working set strategy for the estimation of convolutional models in high dimension. Optimization and Control [math.OC]. Université Côte d'Azur, 2022. English. ⟨NNT : 2022COAZ4016⟩. ⟨tel-03774851⟩
109 Consultations
77 Téléchargements

Partager

Gmail Facebook X LinkedIn More