Semantic Description of Humans in Images

Gaurav Sharma 1, 2
1 LEAR - Learning and recognition in vision
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann, INPG - Institut National Polytechnique de Grenoble
2 Equipe Image - Laboratoire GREYC - UMR6072
GREYC - Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen
Résumé : Dans cette thèse, nous nous intéressons à la description sémantique des personnes dans les images en termes (i) d'attributs sémantiques (sexe, âge), (ii) d'actions (court, saute) et d'expressions faciales (sourire). Tout d'abord, nous proposons une nouvelle représentation des images permettant d'exploiter l'information spatiale spécifique à chaque classe. La représentation standard, les pyramides spatiales, suppose que la distribution spatiale de l'information est (i) uniforme et (ii) la même pour toutes les tâches. Au contraire notre représentation se propose d'apprendre l'information spatiale discriminante pour une tâche spécifique. De plus, nous proposons un modèle qui adapte l'information spatiale à chaque image. Enfin, nous proposons un nouveau descripteur pour l'analyse des expressions faciales. Nous apprenons un partitionnement de l'espace des différences locales d'intensité à partir duquel nous calculons des statistiques d'ordre supérieur pour obtenir des descripteurs plus expressifs. Nous proposons également une nouvelle base de données de 9344 images de personnes collectées sur l'Internet avec les annotations sur 27 attributs sémantiques relatifs au sexe, à l'âge, à l'apparence et à la tenue vestimentaire des personnes. Nous validons les méthodes proposées sur notre base de données ainsi que sur des bases de données publiques pour la reconnaissance d'actions et la reconnaissance d'expressions. Nous donnons également nos résultats sur des bases de données pour la reconnaissance de scènes, le classement d'images d'objets et la reconnaissance de textures afin de montrer le caractère général de nos contributions.
Type de document :
Thèse
Computer Vision and Pattern Recognition [cs.CV]. Université de Caen, 2012. English
Liste complète des métadonnées

Littérature citée [116 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00767699
Contributeur : Thoth Team <>
Soumis le : jeudi 20 décembre 2012 - 12:07:57
Dernière modification le : mardi 5 juin 2018 - 10:14:42
Document(s) archivé(s) le : jeudi 21 mars 2013 - 03:48:51

Fichier

Identifiants

  • HAL Id : tel-00767699, version 1

Citation

Gaurav Sharma. Semantic Description of Humans in Images. Computer Vision and Pattern Recognition [cs.CV]. Université de Caen, 2012. English. 〈tel-00767699〉

Partager

Métriques

Consultations de la notice

799

Téléchargements de fichiers

683