Content based images retrieval based on implicit gaze annotations - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2017

Content based images retrieval based on implicit gaze annotations

Classification d’images à partir d’une annotation implicite par le regard

Résumé

One daunting challenge of Content Based Image Retrieval systems is the requirement of annotated databases. To limit the burden of annotation, this thesis proposes a system of image annotation based on gaze data. The purpose is to classify a small set of images according to a target category (binary classification) in order to classify a set of unseen images. First, we have designed a protocol based on visual preference paradigm in order to collect gaze data from different groups of participants during a category identification task. Among the gaze features known to be informative about the intentions of the participants, we have determined a Gaze-Based Intention Estimator (GBIE), computable in real-time; independent from both the participant and the target category. This implicit annotation is better than random annotation but is inherently uncertain. In a second part, the images annotated by the GBIE from the participants’ gaze data are used to classify a bigger set of images with an algorithm that handles label uncertainty: P-SM combining classification and regression SVM. We have determined among different strategies a criterion of relevance in order to discriminate the most reliable labels, involved in the classification part, from the most uncertain labels, involved in the regression part. The average accuracy of P-SVM is evaluated in different contexts and can compete with the performances of standard classification algorithm trained with true-class labels. These evaluations were first conducted on a standard benchmark for comparing with state-of-the-art results and later conducted on food image dataset.
Un défi pour les systèmes de recherche basée sur le contenu réside dans la nécessité d’avoir une base annotée. Cette thèse propose un système d’annotation d’images interactif par le regard afin d’alléger la tâche d’annotation. Le but est de classer un petit ensemble d’images en fonction d’une catégorie cible (classification binaire) pour classer un grand ensemble d’images. Parmi les caractéristiques du regard pointées comme informatives sur l’intention des utilisateurs, nous avons élaboré un estimateur d’intention par le regard, calculable en temps réel, indépendant de l’utilisateur et de la catégorie cible. Cette annotation implicite est meilleure qu’une annotation aléatoire mais reste incertaine. Dans une deuxième partie, les images ainsi annotées sont utilisées pour classifier un plus grand ensemble d’images avec un algorithme prenant en compte l’incertitude des labels : P-SVM combinant classification et régression. Nous avons déterminé parmi différentes stratégies un critère de pertinence pour discriminer les labels les plus fiables, utilisés pour la classification, des labels les plus incertains, utilisés pour la régression. La précision du P-SVM est évaluée dans différents contextes et peut atteindre les performances d’un algorithme de classification standard entraîné avec les labels certains. Ces évaluations ont tout d’abord été menées sur un benchmark standard pour se comparer à l’état de l’art, et dans un second temps, sur une base d’images de nourriture.
Fichier principal
Vignette du fichier
2017AZUR4115.pdf (107.53 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01724391 , version 1 (06-03-2018)

Identifiants

  • HAL Id : tel-01724391 , version 1

Citer

Stéphanie Lopez. Content based images retrieval based on implicit gaze annotations. Databases [cs.DB]. Université Côte d'Azur, 2017. English. ⟨NNT : 2017AZUR4115⟩. ⟨tel-01724391⟩
316 Consultations
67 Téléchargements

Partager

Gmail Facebook X LinkedIn More