Étude de la classification des vidéos de foule par apprentissage profond - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Study of the classification of crowd videos using deep learning

Étude de la classification des vidéos de foule par apprentissage profond

Résumé

Due to the proliferation of gatherings in large cities, their supervision represents a major issue for the security forces. Fortunately, security forces can count on the presence of video-surveillance cameras to optimize their intervention. However, the automatic processing of the videos they collect is not done systematically, which delays the reaction time of security forces. This thesis sets up a building block for this automation by proposing classification models for video-recorded crowded scenes. After studying existing work in crowd analysis and proposing a taxonomy for classifying state-of-the-art work, we proposed to classify video clips from the Crowd-11 dataset. This dataset contains eleven categories of crowd movements that are representative of crowd behaviors that can occur in public and private spaces. As part of preliminary work on transfer learning, we investigated and analyzed the classification of crowd video clips performed by convolutional neural networks. Our top networks correctly categorize most of the clips in the test set. However, a closer study of their results showed us that they encounter difficulties with three similar classes of crowd movements. In order to overcome the limitations encountered by our first networks, we have proposed two new approaches : the first one leverages heads detection, as a pre-processing step, before applying video classification. The second one relies on ensemble classification which combines the knowledge of several classification methods to produce better decisions. In the context of heads detection, we relied on the heads displacements to describe crowd movements. Heads positions, taken from all of the individuals appearing in the scenes were included into heads detection maps. These maps were sent as input to convolutional neural networks to characterize crowd behaviors and classify them. As part of the ensemble classification, several models trained differently were brought together into an ensemble to classify crowd video clips. Eight ensembles of homogeneous models were compared. Afterthat, ensembles of heterogeneous models were set up to study all possible combinations of ensembles of homogeneous models. The purpose of this study was to find the combination that best combines the knowledge of all homogeneous ensembles to obtain the best performing ensemble of heterogeneous models.
Du fait de la multiplication des rassemblements dans les grandes villes, leur encadrement constitue un enjeu majeur pour les forces de l’ordre. Fort heureusement, les forces de l’ordre peuvent compter sur la présence des caméras de vidéoprotection pour optimiser leur intervention. Toutefois, le traitement automatique des vidéos qu’elles récoltent n’est pas réalisé de manière systématique, ce qui retarde le temps de réaction des forces de l’ordre. Cette thèse apporte une pierre à l’édifice de cette automatisation en mettant en place des modèles réalisant une classification des vidéos de comportements de foule. Après avoir étudié les travaux existants en analyse de foule et proposé une taxonomie permettant de classer les travaux de l’état-de-l’art, nous avons proposé de classer les clips vidéo issus du jeu de données Crowd-11. Ce jeu de données comporte onze catégories de mouvements assez représentatives des comportements de foule pouvant se dérouler dans les espaces publics et privés. Dans le cadre d’un travail préliminaire sur l’apprentissage par transfert, nous avons étudié et analysé la classification des clips vidéo de foule réalisée par des réseaux de neurones convolutifs. Nos meilleurs réseaux classent correctement la majeure partie des clips de l’ensemble de test. Toutefois, une étude plus approfondie de leurs résultats nous a permis de constater qu’ils éprouvent des difficultés avec trois classes de mouvements assez similaires. Afin de pallier les limites rencontrées par nos premiers réseaux, nous avons proposé deux nouvelles approches : la première approche exploite la détection de têtes, en tant qu’étape de pré-traitement, avant de recourir à la classification. La deuxième approche se base sur la classification ensembliste qui associe les connaissances de plusieurs méthodes de classification permettant de produire de meilleures décisions. Dans le cadre de l'exploitation de la détection de têtes, nous nous sommes basés sur les déplacements des têtes des personnes détectées dans les clips vidéo de foule. Les positions des têtes, extraites de toutes les personnes apparaissant dans les scènes du jeu de données, ont été rassemblées dans des cartes de détection de têtes. Ces cartes ont été envoyées en entrée des réseaux de neurones convolutifs pour caractériser les comportements de foule et les classer. Dans le cadre de la classification ensembliste, plusieurs modèles entraînés différemment ont été réunis dans un ensemble pour classer des clips vidéo de foule. Huit ensembles de modèles homogènes ont été étudiés et analysés. Par la suite, des ensembles de modèles hétérogènes ont été mis en place pour étudier toutes les combinaisons possibles des ensembles de modèles homogènes. L’objectif de cette étude a été de trouver la combinaison qui associe le mieux les compétences de chaque ensemble homogène pour obtenir l’ensemble de modèles hétérogènes le plus performant.
Fichier principal
Vignette du fichier
2022MULH3686_these_BENDALI.pdf (46.82 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03828034 , version 1 (25-10-2022)

Identifiants

  • HAL Id : tel-03828034 , version 1

Citer

Mounir Bendali-Braham. Étude de la classification des vidéos de foule par apprentissage profond. Apprentissage [cs.LG]. Université de Haute Alsace - Mulhouse, 2022. Français. ⟨NNT : 2022MULH3686⟩. ⟨tel-03828034⟩
107 Consultations
5 Téléchargements

Partager

Gmail Facebook X LinkedIn More