A System For Retrieving and Classifying Images Extracted From Video Surveillance Cameras - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

A System For Retrieving and Classifying Images Extracted From Video Surveillance Cameras

Un système de récupération et de classification d’images extraites des caméras de vidéo-surveillance

Résumé

In this thesis, we present a robust descriptor for background subtraction based on an unsupervised anomaly detection algorithm, called DeepSphere which is able to detect moving objects from video sequences. Unlike conventional background-foreground separation algorithms, this descriptor is less sensitive to noise and detects foreground objects without additional image processing. In addition, our proposal exploits both deep autoencoders and hy-persphere learning methods, having the ability to capture spatio-temporal dependencies between components and through "timesteps", to flexibly learn a non-linear feature representation and reconstruct normal behaviors from potentially anomalous input data. The high quality non-linear representations learned by the autoencoder helps the hypersphere to better distinguish anomalous cases by learning a compact boundary separating normal and ano-malous data. By adapting this algorithm to the background subtraction task, foreground objects are well captured by DeepSphere and the quality of detection of these objects is improved. Once these objects are detected (people/ cars ...), an approach is proposed to classify them using a DCGAN discriminator network in a semi-supervised manner. The discriminator is transformed into a multi-class classifier that uses both a large number of unlabeled data and a very small number of labeled data to compensate the lack of data and the high cost of collecting additional data or labeling all the data. Finally, we have adopted an approach based on FaceNet model to recognize the extracted people through their faces. In addition, we extended our proposal with a data augmentation method based on DCGANs instead of using standard data augmentation methods. This not only increases the accuracy of the model, but also reduces the execution time and the deep neural network learning time by almost half.
Dans cette thèse, nous présentons un descripteur robuste pour la soustraction d’arrière-plan fondé sur un algorithme de détection des anomalies non-supervisé, appelé DeepSphere, capable de détecter les objets en mouvement dans les séquences vidéos. Contrairement aux algorithmes de séparation arrière-avant plan conventionnels, ce descripteur est tolérant aux variations d’illumination, robuste face aux bruits et aux régions d’arrière-plan dynamiques et détecte les objets de premier-plan sans utiliser de traitement d’image supplémentaire. En outre, ce descripteur exploite à la fois les autoencodeurs profonds et les méthodes d’apprentissage en hypersphère, ayant la capacité de capturer les dépendances spatio-temporelles entre les composants et à travers les pas de temps, d’apprendre de manière flexible une représentation non-linéaire des caractéristiques et de reconstruire les comportements normaux à partir des données d’entrée potentiellement anormales. Les représentations non linéaires de haute qualité apprises par l’autoencodeur aident l’hypersphère à mieux distinguer les cas anormaux en apprenant une frontière compacte séparant les données normales et anormales. En adaptant cet algorithme à la tâche de soustraction d’arrière-plan, les objets de premier plan sont bien capturés par DeepSphere et la qualité de la détection de ces objets est améliorée. Une fois que ces objets sont détectés (personnes/voitures...), une approche est proposée pour les classer en utilisant le réseau discriminateur du DCGAN de manière semi-supervisée. Le discriminateur est transformé en un classificateur multi-classes qui utilise à la fois un grand nombre de données non étiquetées et un très petit nombre de données étiquetées pour compenser la limite de manque de données et le coût élevé de collecte des données supplémentaires ou d’étiquetage de toutes les données. Enfin, nous avons proposé une approche basée sur le modèle FaceNet pour la reconnaissance faciale des personnes extraites. De plus, nous avons étendu notre proposition par une méthode d’augmentation des données basée sur DCGANs au lieu d’utiliser les méthodes standard d’augmentation des données. Cela augmente non seulement la précision du modèle, mais réduit aussi de près de moitié le temps d’exécution et le temps d’apprentissage du réseau neuronal profond.
Fichier principal
Vignette du fichier
2021Ammar177179.pdf (10.8 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03619976 , version 1 (25-03-2022)

Identifiants

  • HAL Id : tel-03619976 , version 1

Citer

Sirine Ammar. A System For Retrieving and Classifying Images Extracted From Video Surveillance Cameras. Computer Vision and Pattern Recognition [cs.CV]. Université de La Rochelle; Université de Sfax (Tunisie), 2021. English. ⟨NNT : 2021LAROS010⟩. ⟨tel-03619976⟩
140 Consultations
146 Téléchargements

Partager

Gmail Facebook X LinkedIn More