Representations and Similarities of Images for Visual Classification

Yan Liu 1
1 imagine - Extraction de Caractéristiques et Identification
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
Résumé : Avec le développement rapide des caméras numériques et photophones, le monde connaît actuellement une révolution de l'image numérique. Un intérêt croissant a émergé de la communauté de recherche ces dernières années pour une annotation automatique d'images visant à associer une ou plusieurs étiquettes à une image en fonction de son contenu sémantique. Dans le domaine de l'annotation automatique d'images, l’approche populaire est celle dite « sac-de-patches » (BOP) qui représente une image comme étant un ensemble non-ordonné de vecteurs de caractéristiques locaux de bas niveau. Les travaux de cette thèse poursuivent donc deux objectifs : d’une part une représentation probabiliste des images basées sur les BOPs et d’autre part le calcul des similarités entre celles-ci. Ces travaux ont été appliqués à l'apprentissage de classifieurs d'images à noyau. Tout d’abord, nous proposons une nouvelle représentation d’image basée sur le GMM qui est fondée sur l’adaptation du critère maximum à posteriori (MAP) d’un modèle "universel". Et puis, nous proposons donc d’approximer une image, modélisée comme un GMM, comme une combinaison convexe de K GMMs issues de K images de référence (MOM, mélange de mélanges) et à caractériser cette image comme un vecteur à K dimensions des poids du mélange. Aussi, nous proposons une autre mesure de similarité contextuelle entre les distributions: la similarité entre deux distributions p et q est mesurée dans le contexte d'une troisième distribution u. Enfin, nous avons expérimenté trois approches pour une transformation explicite des BOVs: 1) kernel-PCA (kPCA), 2) une modification de kPCA que nous proposons pour les noyaux additifs et que nous applellons addkPCA et 3) des projections aléatoires pour des noyaux invariants par déplacement. On en conclut en premier lieu qu’un simple calcul de la racine carré des vecteurs de BOV, qui correspond à une transformation exacte pour le noyau Bhattacharyya, conduit à des améliorations importantes de performances.
Mots-clés : Informatique
Type de document :
Thèse
Engineering Sciences [physics]. Ecole Centrale de Lyon, 2010. English. 〈NNT : 2010ECDL0009〉
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-00564500
Contributeur : <>
Soumis le : mercredi 9 février 2011 - 09:05:18
Dernière modification le : vendredi 10 novembre 2017 - 01:18:38
Document(s) archivé(s) le : mardi 10 mai 2011 - 02:31:19

Fichier

ThA_se_Yan_LIU.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-00564500, version 1
  • Mot de passe :

Collections

Citation

Yan Liu. Representations and Similarities of Images for Visual Classification. Engineering Sciences [physics]. Ecole Centrale de Lyon, 2010. English. 〈NNT : 2010ECDL0009〉. 〈tel-00564500〉

Partager

Métriques

Consultations de la notice

220

Téléchargements de fichiers

166