EXTENDED BAG-OF-WORDS FORMALISM FOR IMAGE CLASSIFICATION

Résumé : L'information visuelle, représentée sous la forme d'images ou de vidéos numériques, est devenue si omniprésente dans le monde numérique d'aujourd'hui, qu'elle ne peut plus être considérée comme un "citoyen de seconde zone", par rapport à l'information textuelle. Néanmoins, contrairement aux documents textuels, les images sont constituées de pixels ne portant pas d'information sémantique directement accessible, ajoutant ainsi une difficulté à la tâche d'interprétation. Dans ce contexte, la classification d'images est devenue une tâche critique. En particulier, l'identification automatique d'objets complexes et de concepts sémantiques dans les images, a suscité de nombreux travaux récents, aussi bien en Recherche d'Information, Vision par Ordinateur, Traitement d'Image qu'en Intelligence Artificielle. Dans cette thèse, nous traitons le problème de la représentation des images. Notre objectif est la détection de concepts à partir d'une analyse du contenu visuel des images et des vidéos. Pour cela, nous introduisons une nouvelle représentation qui enrichit le modèle classique par sacs de mots visuels. S'appuyant sur la quantification de descripteurs locaux, et l'agrégation de ces descripteurs quantifiés en un vecteur de caractéristique unique, le modèle par sacs de mots visuels a émergé comme l'approche la plus efficace pour la classification d'images. Nous proposons BossaNova, une nouvelle représentation d'images permettant de conserver plus d'information lors de l'opération d'agrégation (pooling) en exploitant la distribution des distances entre les descripteurs locaux et les mots visuels. L'évaluation expérimentale sur plusieurs bases de données de classification d'images, telles que ImageCLEF Photo Annotation, MIRFLICKR, PASCAL VOC et 15-Scenes, a montré l'intérêt de Bossanova vis-à-vis des techniques traditionnelles, même sans utiliser de combinaisons complexes de multiples descripteurs locaux.
Type de document :
Thèse
Computer Vision and Pattern Recognition [cs.CV]. Université Pierre et Marie Curie - Paris VI, 2013. English
Liste complète des métadonnées

Littérature citée [315 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00958547
Contributeur : Matthieu Cord <>
Soumis le : mercredi 12 mars 2014 - 17:24:00
Dernière modification le : mercredi 6 février 2019 - 15:34:06
Document(s) archivé(s) le : jeudi 12 juin 2014 - 12:06:00

Identifiants

  • HAL Id : tel-00958547, version 1

Citation

Sandra Avila. EXTENDED BAG-OF-WORDS FORMALISM FOR IMAGE CLASSIFICATION. Computer Vision and Pattern Recognition [cs.CV]. Université Pierre et Marie Curie - Paris VI, 2013. English. 〈tel-00958547〉

Partager

Métriques

Consultations de la notice

516

Téléchargements de fichiers

1454