Optimization of video surveillance networks in smart cities using video compressive sensing and deep learning techniques

Wael Saideni

Résumé

Compressive Sensing, commonly used to approximate solutions for underdetermined linear systems of equations, is gaining a lot of attention as an efficient acquisition and compression paradigm that combines nonlinear reconstruction algorithms and random sampling on sparse basis. It enables to optimize the storage capacity of the wireless systems as well as the speed and cost of acquisition. Recently, Deep Learning architectures have frequently been exploited to optimize the reconstruction phase. The main objective of this thesis is to take advantage of Deep Learning architectures to optimize the compressive sensing technique by applying it on video signals and subsequently optimize the acquisition, transmission, and reconstruction of videos in modern digital systems. Therefore, the strategy adopted during this research work consists in establishing a comparative study on video compressive sensing (VCS) approaches based on Deep Learning by evaluating the quality and the speed of reconstruction as well as the different architectures. Then, two VCS environments have been designed: the first one is based on the prediction of video frames by implementing an approach based on a new recurrent network and the second one exploits the latest performances achieved with the Transformers and the attention mechanism. So, the approach adopted is based on a state-of- the-art analysis followed by an explanation of each architecture and an experimental validation. The different constraints encountered during this work are discussed and appropriate solutions are proposed.

La technique de compressive sensing joue un rôle important dans le traitement des données vu que l’acquisition et la compression se font simultanément grâce à un processus de prise de mesures. Cette technique optimise les capacités de stockage des systèmes ainsi que la vitesse et le coût d’acquisition. Récemment, cette technique est devenue de plus en plus utilisée grâce à l’optimisation des algorithmes de reconstruction en utilisant les architectures du Deep Learning. L’objectif principal de cette thèse est de tirer profit des architectures de Deep Learning pour optimiser la technique de compressive sensing en l’appliquant sur des signaux vidéo et par la suite optimiser l’acquisition, la transmission et la reconstruction des vidéos dans les systèmes numériques modernes. Ainsi, la stratégie adoptée au cours de ces travaux de recherche consiste à commencer par établir une étude comparative sur les approches de vidéo compressive sensing (VCS) basées sur le Deep Learning en évaluant la qualité et la vitesse de reconstruction ainsi que les différentes architectures. Puis, deux environnements de VCS ont été conçus : le premier se base sur la prédiction des frames vidéo en implémentant une approche basée sur un nouveau réseau récurrent et le deuxième exploite les dernières performances réalisées avec les Transformers et le mécanisme d’attention. Alors, la démarche adoptée dans ces deux approches repose sur une analyse de l’état de l’art suivie d’une explication de chaque architecture et une validation expérimentale. Les différentes contraintes rencontrées au cours de ces travaux sont discutées et des solutions appropriées sont proposées.

Optimization of video surveillance networks in smart cities using video compressive sensing and deep learning techniques

Optimisation d'un système de video surveillance dans les villes intelligentes en utilisant le Deep Learning et la video compressive sensing

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager