Détection temps réel de postures humaines par fusion d’images 3D

Wassim Filali

Résumé

This thesis manuscript presents a reflection of the different research investigations, rooted in computer vision, which were carried out during the life time of this PhD research. It presents a comprehensive study of the state-of-the-art in human posture reconstruction, its contexts, and associated applications. The underlying research focuses on utilization of computer vision techniques for human activity recognition based on embedded system technologies and intelligent camera systems. It also focuses on human posture reconstruction as it plays a key role in subsequent activity recognition. In this work, we have relied on the latest technological advances in sensor technology, specifically on the advent of Kinect, an RGB-D sensor from Microsoft, to realize a low-level sensor fusion algorithm to fuse the outputs of multiple depth sensors for human posture reconstruction. In this endeavor, the different challenges encountered are: (1) occlusions when using a single sensor; (2) the combinatorial complexity of learning a high dimensional space corresponding to human postures; and finally, (3) embedded systems constraints. The proposed system addresses and consequently resolves each of these challenges. The fusion of multiple depth sensors gives better result than individual sensors as the fusion alleviates the majority of occlusions by resolving many incoherencies thus by guaranteeing improved robustness and completeness on the observed scene. In this manuscript, we have elaborated the low-level fusion strategy which makes up the main contribution of this thesis. We have adopted a learning technique based on decision forests. Our algorithm is applied on our own learning dataset acquired with our multi-platform kinect coupled to a commercial motion capture system. The two main principal features are sensor data fusion and supervised learning. Specifically, the data fusion technique is described by acquisition, segmentation, and voxelization which generates a 3D reconstruction of the occupied space. The supervised learning is based on decision forests and uses appropriate descriptors extracted from the reconstructed data. Various experiments including specific parameter learning (tuning) runs have been realized. Qualitative and quantitative comparative human articulation reconstruction precision evaluations against the state-of-the-art strategies have also been carried out. The different algorithms have been implemented on a personal computer environment which helped to analyze the essential parts that needs hardware embedded integration. The hardware integration consisted of studying and comparing multiple approaches. FPGA is a platform that meets both the performance and embeddability criteria as it provides resources that reduce CPU cost. This allowed us to make a contribution which constitutes a hierarchically prioritized design via a layer of intermediary modules. Comparative studies have also been done using background subtraction implementation as a benchmark integrated on PC, GPU, and FPGA (the FPGA implementation has been presented in detail). Finally, the manuscript terminates with concluding remarks and future research project and investigation prospects.

Nous présentons dans ce manuscrit le contenu de la thèse, centrée sur un projet de recherche en vision. Nous présentons l’étude de l’état de l’art de la reconstruction de posture et leurs contextes d’application associés. Nous partons des systèmes embarqués et caméras intelligentes et nous focalisons sur la vision par ordinateur et son utilisation pour la reconnaissance d’activités humaines. Ensuite, nous nous intéressons à la reconstruction de posture, car cela représente l’élément-clé du processus de reconnaissance. Ces travaux de thèse se sont appuyés sur les dernières avancées technologiques typiquement l’avènement du capteur RGB-D type Kinect. Nous avons développé un algorithme de fusion bas niveau de multiples capteurs de profondeur. Les challenges sous-jacents sont liés à plusieurs phénomènes : (1) aux occultations dues à l’utilisation d’un capteur unique, ensuite, (2) à la complexité combinatoire en fonction du nombre de postures à apprendre, et (3) aux contraintes imposées à l’intégration du système. Nous avons abordé chacun de ces points. L’utilisation de plusieurs capteurs permet par évidence de s’affranchir de la majorité des problèmes d’auto-occultation et offre de meilleures garanties de robustesse et complétude sur la scène observée. Nous avons donc élaboré une technique de fusion bas niveau qui représente a priori la contribution principale de la thèse. Nous avons adapté une technique d’apprentissage fondée sur des forêts de décision. Notre algorithme s’appuie sur notre propre base d’apprentissage élaborée à partir de notre plate-forme multi-kinect couplée à un système commercial de capture de mouvement. Les deux principales spécificités sont la fusion de données sensorielles et l’apprentissage supervisé. Plus précisément, la fusion des données est décrite par les étapes de capture, segmentation et voxellisation qui génèrent une reconstruction 3D de l’espace occupé. L’apprentissage s’appuie sur le formalisme des forêts de décision en utilisant un descripteur approprié. Des expérimentations et le réglage (« tuning ») des paramètres de l’apprentissage ont également été réalisés. Une comparaison avec l’état de l’art a été menée de façon qualitative et quantitative avec des résultats concluants au niveau de la précision des articulations reconstruites. L’étude algorithmique a été approfondie sur un environnement PC et a permis de cibler une sous-partie des modalités à intégrer dans notre système. L’intégration matérielle a consisté en une étude et comparaison des différentes approches disponibles. Les FPGA sont une plate-forme permettant de répondre aux critères de performance et d’ « embarquabilité », car ils délivrent une puissance permettant de réduire le coût CPU. Ceci nous a permis d’apporter une contribution qui consiste à hiérarchiser la conception et développer une couche de « modules » intermédiaires. Une comparaison a été menée entre une fonctionnalité de détection d’arrière-plan, intégrée sur PC, GPU et FPGA puis son implémentation sur FPGA a été détaillée. Le document se termine par la conclusion et les perspectives qui font l’objet de futures investigations et prospectives professionnelles.

Real-time detection of human postures by fusing 3D images

Détection temps réel de postures humaines par fusion d’images 3D

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager