Articulated human pose estimation in images and video

Aichun Zhu

Thèse Année : 2016

Articulated human pose estimation in images and video

Détection et suivi de la posture humaine dans les images fixes et les vidéos

(1)

Aichun Zhu

Fonction : Auteur

Institut Charles Delaunay

Résumé

Human pose estimation is a challenging problem in computer vision and shares all the difficulties of object detection. This thesis focuses on the problems of human pose estimation in still images or video, including the diversity of appearances, changes in scene illumination and confounding background clutter. To tackle these problems, we build a robust model consisting of the following components. First, the top-down and bottom-up methods are combined to estimation human pose. We extend the Pictorial Structure (PS) model to cooperate with annealed particle filter (APF) for robust multi-view pose estimation. Second, we propose an upper body based multiple mixture parts (MMP) model for human pose estimation that contains two stages. In the pre-estimation stage, there are three steps: upper body detection, model category estimation for upper body, and full model selection for pose estimation. In the estimation stage, we address the problem of a variety of human poses and activities. Finally, a Deep Convolutional Neural Network (DCNN) is introduced for human pose estimation. A Local Multi-Resolution Convolutional Neural Network (LMR-CNN) is proposed to learn the representation for each body part. Moreover, a LMR-CNN based hierarchical model is defined to meet the structural complexity of limb parts. The experimental results demonstrate the effectiveness of the proposed model

L’estimation de la pose du corps humain est un problème difficile en vision par ordinateur et les actions de toutes les difficultés de détection d’objet. Cette thèse se concentre sur les problèmes de l’estimation de la pose du corps humain dans les images ou vidéo, y compris la diversité des apparences, les changements de scène et l’éclairage de fond de confusion encombrement. Pour résoudre ces problèmes, nous construisons un modèle robuste comprenant les éléments suivants. Tout d’abord, les méthodes top-down et bottom-up sont combinés à l’estimation pose humaine. Nous étendons le modèle structure picturale (PS) de coopérer avec filtre à particules recuit (APF) pour robuste multi-vues estimation de la pose. Deuxièmement, nous proposons plusieurs parties de mélange à base (MMP) modèle d’une partie supérieure du corps pour l’estimation de la pose qui contient deux étapes. Dans la phase de pré-estimation, il y a trois étapes: la détection du haut du corps, catégorie estimation du modèle pour le haut du corps, et la sélection de modèle complet pour pose estimation. Dans l’étape de l’estimation, nous abordons le problème d’une variété de poses et les activités humaines. Enfin, le réseau de neurones à convolution (CNN) est introduit pour l’estimation de la pose. Un Local Multi-résolution réseau de neurones à convolution (LMR-CNN) est proposé pour apprendre la représentation pour chaque partie du corps. En outre, un modèle hiérarchique sur la base LMR-CNN est défini pour faire face à la complexité structurelle des parties de branche. Les résultats expérimentaux démontrent l’efficacité du modèle proposé

Mots clés

Computer vision Signal detection Posture Support vector machines Neuronal network (Computer science)

Vision par ordinateur Détection du signal Posture Machines à vecteurs de support Réseaux neuronaux (informatique)

Domaines

Vision par ordinateur et reconnaissance de formes [cs.CV] Réseau de neurones [cs.NE] Traitement du signal et de l'image [eess.SP]

Fichier principal

Aichun_Zhu_2016TROY0013.pdf (6.14 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-03361827

Soumis le : vendredi 1 octobre 2021-15:21:09

Dernière modification le : vendredi 12 janvier 2024-16:47:34

Archivage à long terme le : dimanche 2 janvier 2022-19:21:48

Dates et versions

tel-03361827 , version 1 (01-10-2021)

Identifiants

HAL Id : tel-03361827 , version 1

Citer

Aichun Zhu. Articulated human pose estimation in images and video. Computer Vision and Pattern Recognition [cs.CV]. Université de Technologie de Troyes, 2016. English. ⟨NNT : 2016TROY0013⟩. ⟨tel-03361827⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS STAR UTT UTT-FULL-TEXT

99 Consultations

107 Téléchargements

Articulated human pose estimation in images and video

Détection et suivi de la posture humaine dans les images fixes et les vidéos

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager