Spatio-temporal descriptors for human action recognition

Sameh Megrhi

Résumé

Due to increasing demand for video analysis systems in recent years, human action de-tection/recognition is being targeted by the research community in order to make video description more accurate and faster, especially for big datasets. The ultimate purpose of human action recognition is to discern automatically what is happening in any given video. This thesis aims to achieve this purpose by contributing to both action detection and recognition tasks. We thus have developed new description methods for human action recognition.For the action detection component we introduce two novel approaches for human action detection. The ﬁrst proposition is a simple yet eﬀective method that aims at detecting human movements. First, video sequences are segmented into Frame Packets (FPs) and Group of Interest Points (GIP). In this method we track the movements of Interest Points in simple controlled video datasets and then in videos of gradually increasing complexity. The controlled datasets generally contain videos with a static background and simple ac-tions performed by one actor. The more complex realistic datasets are collected from social networks.The second approach for action detection attempts to address the problem of human ac-tion recognition in realistic videos captured by moving cameras. This approach works by segmenting human motion, thus investigating the optimal suﬃcient frame number to per-form action recognition. Using this approach, we detect object edges using the canny edge detector. Next, we apply all the steps of the motion segmentation process to each frame. Densely distributed interest points are detected and extracted based on dense SURF points with a temporal step of N frames. Then, optical ﬂows of the detected key points between two frames are computed by the iterative Lucas and Kanade optical ﬂow technique, using pyramids. Since we are dealing with scenes captured by moving cameras, the motion of objects necessarily involves the background and/or the camera motion. Hence, we propose to compensate for the camera motion. To do so, we must ﬁrst assume that camera motion exists if most points move in the same direction. Then, we cluster optical ﬂow vectors using a KNN clustering algorithm in order to determine if the camera motion exists. If it does, we compensate for it by applying the aﬃne transformation to each frame in which camera motion is detected, using as input parameters the camera ﬂow magnitude and deviation. Finally, after camera motion compensation, moving objects are segmented using temporal diﬀerencing and a bounding box is drawn around each detected moving object. The action recognition framework is applied to moving persons in the bounding box. Our goal is to reduce the amount of data involved in motion analysis while preserving the most important structural features. We believe that we have performed action detection in the spatial and temporal domain in order to obtain better action detection and recognition while at the same time considerably reducing the processing time...

L'analyse et l’interprétation de contenus visuels et plus particulièrement la vidéo est un domaine de recherche de plus en plus attractif en raison du nombre important d'applications telles que la vidéo-surveillance, le résumé de films, l'indexation, les jeux vidéo, la robotique et la domotique. Dans cette thèse nous nous intéressons à la détection et à la reconnaissance d'actions humaines dans des séquences vidéo. Pour la partie détection des actions, nous avons introduit deux approches basées sur les points d'intérêts locaux. La première proposition est une méthode simple et efficace qui vise à détecter les mouvements humains ensuite contribuer à extraire des séquences vidéo décrivant des actions importantes. Afin d'atteindre cet objectif, les premières séquences vidéo sont segmentées en volumes de trames et groupes de points d’intérêts. Dans cette méthode, nous nous basons sur le suivi du mouvement des points d'intérêts. Nous avons utilisé, dans un premier lieu, des vidéos simples puis nous avons progressivement augmenté la complexité des vidéos en optant pour des scènes réalistes. Les jeux de données simples présentent généralement un arrière-plan statique avec un Seul acteur qui effectue une seule action unique ou bien la même action mais d'une manière répétitive. Nous avons ensuite testé la robustesse de la détection d'action proposée dans des jeux de données plus complexes réalistes recueillis à partir des réseaux sociaux. Nous avons introduit une approche de détection d'actions efficace pour résoudre le problème de la reconnaissance d'actions humaines dans les vidéos réalistes contenant des mouvements de caméra. Le mouvement humain est donc segmenté d'une manière spatio-temporelle afin de détecter le nombre optimal de trames suffisant pour effectuer une description vidéo. Les séquences sont décrites au moyen de descripteurs spatio-temporels. Nous avons proposé dans cette thèse deux nouveaux descripteurs spatio-temporels basés sur le suivi de la trajectoire des points d'intérêts. Les suivis et la description vidéo sont effectués sur les patchs vidéo qui contiennent un mouvement ou une partie d'un mouvement détecté par la segmentation réalisée lors de l'étape précédente. Nous nous sommes basés sur le descripteur SURF non seulement pour sa précision et mais surtout pour la rapidité. Le premier descripteur proposé est appelé ST-SURF basé sur une nouvelle combinaison du (SURF) et du flot optique. Le ST-SURF permet le suivi de la trajectoire des points d'intérêts tout en gardant les informations spatiales, pertinentes, provenant du SURF. Le deuxième descripteur proposé dans le cadre de cette thèse est un histogramme du mouvement de la trajectoire (HMTO). HMTO est basé sur la position ainsi que l'échelle relative à un SURF. Ainsi, pour chaque SURF détecté, nous définissons une région du voisinage du point d'intérêt en nous basant sur l'échelle. Pour le patch détecté, nous extrayons le flot optique d'une manière dense. Les trajectoires de mouvement sont ensuite générées pour chaque pixel en exploitant les composantes horizontale et verticale de flot optique (u, v). La précision de la description de la vidéo proposée est testée sur un ensemble de données complexes et un plus grand ensemble de données réalistes. Les descripteurs de vidéo proposés sont testés d'une manière simple puis en les fusionnants avec d'autres descripteurs. Les descripteurs vidéo ont été introduits dans un processus de classification basé sur le sac de mots et ont démontré une amélioration des taux de reconnaissance par rapport aux approches précédemment proposés dans l'état-de-l ‘art.

Spatio-temporal descriptors for human action recognition

Reconnaissance d’action à partir de descripteurs spatio-temporels

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager