Articulated human pose estimation in images and video - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2016

Articulated human pose estimation in images and video

Détection et suivi de la posture humaine dans les images fixes et les vidéos

Résumé

Human pose estimation is a challenging problem in computer vision and shares all the difficulties of object detection. This thesis focuses on the problems of human pose estimation in still images or video, including the diversity of appearances, changes in scene illumination and confounding background clutter. To tackle these problems, we build a robust model consisting of the following components. First, the top-down and bottom-up methods are combined to estimation human pose. We extend the Pictorial Structure (PS) model to cooperate with annealed particle filter (APF) for robust multi-view pose estimation. Second, we propose an upper body based multiple mixture parts (MMP) model for human pose estimation that contains two stages. In the pre-estimation stage, there are three steps: upper body detection, model category estimation for upper body, and full model selection for pose estimation. In the estimation stage, we address the problem of a variety of human poses and activities. Finally, a Deep Convolutional Neural Network (DCNN) is introduced for human pose estimation. A Local Multi-Resolution Convolutional Neural Network (LMR-CNN) is proposed to learn the representation for each body part. Moreover, a LMR-CNN based hierarchical model is defined to meet the structural complexity of limb parts. The experimental results demonstrate the effectiveness of the proposed model
L’estimation de la pose du corps humain est un problème difficile en vision par ordinateur et les actions de toutes les difficultés de détection d’objet. Cette thèse se concentre sur les problèmes de l’estimation de la pose du corps humain dans les images ou vidéo, y compris la diversité des apparences, les changements de scène et l’éclairage de fond de confusion encombrement. Pour résoudre ces problèmes, nous construisons un modèle robuste comprenant les éléments suivants. Tout d’abord, les méthodes top-down et bottom-up sont combinés à l’estimation pose humaine. Nous étendons le modèle structure picturale (PS) de coopérer avec filtre à particules recuit (APF) pour robuste multi-vues estimation de la pose. Deuxièmement, nous proposons plusieurs parties de mélange à base (MMP) modèle d’une partie supérieure du corps pour l’estimation de la pose qui contient deux étapes. Dans la phase de pré-estimation, il y a trois étapes: la détection du haut du corps, catégorie estimation du modèle pour le haut du corps, et la sélection de modèle complet pour pose estimation. Dans l’étape de l’estimation, nous abordons le problème d’une variété de poses et les activités humaines. Enfin, le réseau de neurones à convolution (CNN) est introduit pour l’estimation de la pose. Un Local Multi-résolution réseau de neurones à convolution (LMR-CNN) est proposé pour apprendre la représentation pour chaque partie du corps. En outre, un modèle hiérarchique sur la base LMR-CNN est défini pour faire face à la complexité structurelle des parties de branche. Les résultats expérimentaux démontrent l’efficacité du modèle proposé
Fichier principal
Vignette du fichier
Aichun_Zhu_2016TROY0013.pdf (6.14 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03361827 , version 1 (01-10-2021)

Identifiants

  • HAL Id : tel-03361827 , version 1

Citer

Aichun Zhu. Articulated human pose estimation in images and video. Computer Vision and Pattern Recognition [cs.CV]. Université de Technologie de Troyes, 2016. English. ⟨NNT : 2016TROY0013⟩. ⟨tel-03361827⟩
99 Consultations
107 Téléchargements

Partager

Gmail Facebook X LinkedIn More