Exploration visuelle d'environnement intérieur par détection et modélisation d'objets saillants

Maxime Cottret

Résumé

A robot companion has to understand a domotic environment in order to execute requests like « Search a glass in the kitchen » with a high level of autonomy. So the robot must acquire several representations adapted to the tasks to be executed. This thesis proposes an on line learning method of an environment model expressed as a set of local structures described by appearance-based characteristics, and possibly named by a tutor. Such descriptions could be used in order to define a topological area (e.g. the kitchen) by a set of local structures or objects that could be found here (e.g. glasses, fridge, pans&). For the construction of such a representation, it is proposed a cognitive mehod, based on attentive and preattentive visual processes, acquiring images from a multifocal sensor. The preattentive process aims at detect interest regions, that could contain discriminant visual information ; based on the saliency concept proposed initially bu Itti and Koch, interest regions are extracted from a saliency map, built from images acquired by a short lens or panoramic camera (large view field). Such a region is then tracked on several successive images acquired while the robot is moving, so that the size and the 3D position of the corresponding local structure could be coarsely estimated. Then the attentive process exploits attentionam mechanisms in order to be focused successively on each interest region : it aims to characterize each local structure by an appearance-based model defined by an associative memort views-patches-aspects. Salient scaled patches or SIFT features are extracted from every image. After this exploration step is over, the robot tutor could annotated the model, segmenting local structures in objects, naming objects and grouping them in areas (kitchen&). Then, the robot exploits this environment model for the recognition and the coarse localization of objects and areas.

Un robot compagnon doit comprendre le lieu de vie de l'homme pour satisfaire une requête telle que "Va chercher un verre dans la cuisine" avec un haut niveau d'autonomie. Pour cela, le robot doit acquérir un ensemble de représentations adaptées aux différentes tâches à effectuer. Dans cette thèse, nous proposons d'apprendre en ligne un modèle d'apparence de structures locales qui pourront être nommées par l'utilisateur. Cela permettra ensuite de caractériser un lieu topologique (ex: la cuisine) par un ensemble de structures locales ou d'objets s'y trouvant (réfrigérateur, cafetière, evier, ...). Pour découvrir ces structures locales, nous proposons une approche cognitive, exploitant des processus visuels pré-attentif et attentif, mis en oeuvre à partir d'un système sensoriel multi-focal. Le processus pré-attentif a pour rôle la détection de zones d'intérêt, supposées contenir des informations visuelles discriminantes: basé sur le modèle de 'saillance' de Itti et Koch, il détecte ces zones dans une carte de saillance, construite à partir d'images acquises avec une caméra large champ; une zone détectée est ensuite suivie sur quelques images afin d'estimer grossièrement la taille et la position 3D de la structure locale de l'environnement qui lui correspond. Le processus attentif se focalise sur la zone d'intérêt: le but est de caractériser chaque structure locale, par un modèle d'apparence sous la forme de mémoires associatives vues-patches-aspects. De chaque image sont extraits des points d'intérêt, caractérisés par un descripteur d'apparence local. Après cette phase d'exploration, l'homme peut annoter le modèle en segmentant les structures locales en objets, en nommant ces objets et en les regroupant dans des zones (cuisine&). Ce modèle d'apparence sera ensuite exploité pour la reconnaissance et la localisation grossière des objets et des lieux perçus par le robot

Exploration visuelle d'environnement intérieur par détection et modélisation d'objets saillants

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager