A System For Retrieving and Classifying Images Extracted From Video Surveillance Cameras

Sirine Ammar

Résumé

In this thesis, we present a robust descriptor for background subtraction based on an unsupervised anomaly detection algorithm, called DeepSphere which is able to detect moving objects from video sequences. Unlike conventional background-foreground separation algorithms, this descriptor is less sensitive to noise and detects foreground objects without additional image processing. In addition, our proposal exploits both deep autoencoders and hy-persphere learning methods, having the ability to capture spatio-temporal dependencies between components and through "timesteps", to flexibly learn a non-linear feature representation and reconstruct normal behaviors from potentially anomalous input data. The high quality non-linear representations learned by the autoencoder helps the hypersphere to better distinguish anomalous cases by learning a compact boundary separating normal and ano-malous data. By adapting this algorithm to the background subtraction task, foreground objects are well captured by DeepSphere and the quality of detection of these objects is improved. Once these objects are detected (people/ cars ...), an approach is proposed to classify them using a DCGAN discriminator network in a semi-supervised manner. The discriminator is transformed into a multi-class classifier that uses both a large number of unlabeled data and a very small number of labeled data to compensate the lack of data and the high cost of collecting additional data or labeling all the data. Finally, we have adopted an approach based on FaceNet model to recognize the extracted people through their faces. In addition, we extended our proposal with a data augmentation method based on DCGANs instead of using standard data augmentation methods. This not only increases the accuracy of the model, but also reduces the execution time and the deep neural network learning time by almost half.

Dans cette thèse, nous présentons un descripteur robuste pour la soustraction d’arrière-plan fondé sur un algorithme de détection des anomalies non-supervisé, appelé DeepSphere, capable de détecter les objets en mouvement dans les séquences vidéos. Contrairement aux algorithmes de séparation arrière-avant plan conventionnels, ce descripteur est tolérant aux variations d’illumination, robuste face aux bruits et aux régions d’arrière-plan dynamiques et détecte les objets de premier-plan sans utiliser de traitement d’image supplémentaire. En outre, ce descripteur exploite à la fois les autoencodeurs profonds et les méthodes d’apprentissage en hypersphère, ayant la capacité de capturer les dépendances spatio-temporelles entre les composants et à travers les pas de temps, d’apprendre de manière flexible une représentation non-linéaire des caractéristiques et de reconstruire les comportements normaux à partir des données d’entrée potentiellement anormales. Les représentations non linéaires de haute qualité apprises par l’autoencodeur aident l’hypersphère à mieux distinguer les cas anormaux en apprenant une frontière compacte séparant les données normales et anormales. En adaptant cet algorithme à la tâche de soustraction d’arrière-plan, les objets de premier plan sont bien capturés par DeepSphere et la qualité de la détection de ces objets est améliorée. Une fois que ces objets sont détectés (personnes/voitures...), une approche est proposée pour les classer en utilisant le réseau discriminateur du DCGAN de manière semi-supervisée. Le discriminateur est transformé en un classificateur multi-classes qui utilise à la fois un grand nombre de données non étiquetées et un très petit nombre de données étiquetées pour compenser la limite de manque de données et le coût élevé de collecte des données supplémentaires ou d’étiquetage de toutes les données. Enfin, nous avons proposé une approche basée sur le modèle FaceNet pour la reconnaissance faciale des personnes extraites. De plus, nous avons étendu notre proposition par une méthode d’augmentation des données basée sur DCGANs au lieu d’utiliser les méthodes standard d’augmentation des données. Cela augmente non seulement la précision du modèle, mais réduit aussi de près de moitié le temps d’exécution et le temps d’apprentissage du réseau neuronal profond.

A System For Retrieving and Classifying Images Extracted From Video Surveillance Cameras

Un système de récupération et de classification d’images extraites des caméras de vidéo-surveillance

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager