Learning human actions in video

Alexander Klaser 1
1 LEAR - Learning and recognition in vision
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann, INPG - Institut National Polytechnique de Grenoble
Résumé :

Cette thèse s'intéresse à la reconnaissance des actions humaines dans des données vidéo réalistes, tels que les films. À cette fin, nous développons des algorithmes d'extraction de caractéristiques visuelles pour la classification et la localisation d'actions.

Dans une première partie, nous étudions des approches basées sur les sacs-de-mots pour la classification d'action. Dans le cas de vidéo réalistes, certains travaux récents qui utilisent le modèle sac-de-mots pour la représentation d'actions ont montré des résultats prometteurs. Par conséquent, nous effectuons une comparaison approfondie des méthodes existantes pour la détection et la description des caractéristiques locales. Ensuite, nous proposons deux nouvelles approches pour la descriptions des caractéristiques locales en vidéo. La première méthode étend le concept d'histogrammes sur les orientations de gradient dans le domaine spatio-temporel. La seconde méthode est basée sur des trajectoires de points d'intérêt détectés spatialement. Les deux descripteurs sont évalués avec une représentation par sac-de-mots et montrent une amélioration par rapport à l'état de l'art pour la classification d'actions.

Dans une seconde partie, nous examinons comment la détection de personnes peut contribuer à la reconnaissance d'actions. Tout d'abord, nous développons une approche qui combine la détection de personnes avec une représentation sac-de-mots. La performance est évaluée pour la classification d'actions à plusieurs niveaux d'échelle spatiale. Ensuite, nous explorons la localisation spatio-temporelle des actions humaines dans les films. Nous étendons une approche de suivi de personnes pour des vidéos réalistes. En outre, nous développons une représentation d'actions qui est adaptée aux détections de personnes. Nos expériences suggèrent que la détection de personnes améliore significativement la localisation d'actions. De plus, notre système montre une grande amélioration par rapport à l'état de l'art actuel.

Type de document :
Thèse
Modeling and Simulation. Institut National Polytechnique de Grenoble - INPG, 2010. English
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00514814
Contributeur : Alexander Klaser <>
Soumis le : vendredi 3 septembre 2010 - 12:20:35
Dernière modification le : vendredi 3 septembre 2010 - 13:44:46
Document(s) archivé(s) le : mardi 23 octobre 2012 - 15:30:33

Identifiants

  • HAL Id : tel-00514814, version 1

Collections

Citation

Alexander Klaser. Learning human actions in video. Modeling and Simulation. Institut National Polytechnique de Grenoble - INPG, 2010. English. <tel-00514814>

Partager

Métriques

Consultations de
la notice

681

Téléchargements du document

2916