Visual words for pose computation

Srikrishna Bhat 1
1 MAGRIT - Visual Augmentation of Complex Environments
INRIA Lorraine, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Résumé : Nous abordons le problème de la mise en correspondance de points dans des images pour calculer la pose d'une caméra par l'algorithme Perspective-n-Point (PnP). Nous calculons la carte 3D, c'est-à-dire les coordonnées 3D et les caractéristiques visuelles de quelques points dans l'environnement grâce à une procédure d'apprentissage hors ligne utilisant un ensemble d'images d'apprentissage. Étant donné une nouvelle image nous utilisons PnP à partir des coordonnées 2D dans l'image de points 3D détectés à l'aide de la carte 3D. Pendant la phase d'apprentissage nous groupons les descripteurs SIFT extraits des images d'apprentissage pour obtenir des collections de positions 2D dans ces images de quelques-uns des points 3D dans l'environnement. Le calcul de SFM (Structure From Motion) est effectué pour obtenir les coordonnées des points correspondants 3D. Pendant la phase de test, les descripteurs SIFT associés aux points 2D projection d'un point 3D de la carte sont utilisés pour reconnaître le point 3D dans une image donnée. Le cadre de travail est semblable à celui des mots visuels utilisés dans différents domaines de la vision par ordinateur. Pendant l'apprentissage, la formation des mots visuelle est effectuée via l'identification de groupes et pendant les tests des points 3D sont identifiés grâce à la reconnaissance des mots visuels. Nous menons des expériences avec des méthodes de formation différentes (k-means et mean-shift) et proposons un nouveau schéma pour la formation des mots visuels pour la phase d'apprentissage. Nous utilisons différentes règles de mise en correspondance, y compris quelques-unes des méthodes standards de classification supervisée pour effectuer la reconnaissance des mots visuels pendant la phase de test. Nous évaluons ces différentes stratégies dans les deux étapes. Afin d'assurer la robustesse aux variations de pose entre images d'apprentissage et images de test, nous explorons différentes façons d'intégrer les descripteurs SIFT extraits de vues synthétiques générées à partir des images d'apprentissage. Nous proposons également une stratégie d'accélération exacte pour l'algorithme mean-shift.
Type de document :
Thèse
Signal and Image processing. Université de Lorraine, 2013. English. 〈NNT : 2013LORR0001〉
Liste complète des métadonnées

Littérature citée [112 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01749330
Contributeur : Marie-Odile Berger <>
Soumis le : mardi 26 février 2013 - 11:31:14
Dernière modification le : vendredi 1 juin 2018 - 01:16:08
Document(s) archivé(s) le : dimanche 2 avril 2017 - 05:20:53

Identifiants

  • HAL Id : tel-01749330, version 2

Collections

Citation

Srikrishna Bhat. Visual words for pose computation. Signal and Image processing. Université de Lorraine, 2013. English. 〈NNT : 2013LORR0001〉. 〈tel-01749330v2〉

Partager

Métriques

Consultations de la notice

464

Téléchargements de fichiers

574