Fusion de données audio-visuelles pour l'interaction Homme-Robot

Brice Burger

Thèse Année : 2010

Fusion de données audio-visuelles pour l'interaction Homme-Robot

(1)

Brice Burger

Fonction : Auteur

Laboratoire d'analyse et d'architecture des systèmes

Résumé

In the framework of assistance robotics, this PHD aims at merging two channels of information (visual and auditive) potentially available on a robot. The goal is to complete and/or confirm data that an only channel could have supplied in order to perform advanced interaction between a human and a robot. To do so, we propose a perceptual interface for multimodal interaction which goal is to interpret jointly speech and gesture, in particular for the use of spatial references. In this thesis, we first describe the speech part of this work which consists in an embedded recognition and interpretation system for continuous speech. Then comes the vision part which is composed of a visual multi-target tracker that tracks, in 3D, the head and the two hands of a human in front of the robot, and a second tracker for the head orientation. The outputs of these trackers are used to feed the gesture recognition system described later. We continue with the description of a module dedicated to the fusion of the data outputs of these information sources in a probabilistic framework. Last, we demonstrate the interest and feasibility of such a multimodal interface through some demonstrations on the LAAS-CNRS robots. All the modules described in this thesis are working in quasi-real time on these real robotic platforms.

Dans le cadre de la robotique d'assistance, cette thèse a pour but de fusionner deux canaux d'informations (visuelles et auditives) dont peut disposer un robot afin de compléter et/ou confirmer les données qu'un seul canal aurait pu fournir, et ce, en vue d'une interaction avancée entre homme et robot. Pour ce faire, nos travaux proposent une interface perceptuelle pour l'interaction multimodale ayant vocation à interpréter conjointement parole et geste, notamment pour le traitement des références spatiales. Nous décrivons dans un premier temps la composante parole de nos travaux qui consiste en un système embarqué de reconnaissance et d'interprétation de la parole continue. Nous détaillons ensuite la partie vision composée d'un traqueur visuel multi-cibles chargé du suivi en 3D de la tête et des deux mains, ainsi que d'un second traqueur chargé du suivi de l'orientation du visage. Ces derniers alimentent un système de reconnaissance de gestes par DBNs décrit par la suite. Nous poursuivons par la description d'un module chargé de la fusion des données issues de ces sources d'informations dans un cadre probabiliste. Enfin, nous démontrons l'intérêt et la faisabilité d'une telle interface multimodale à travers un certains nombre de démonstrations sur les robots du LAAS-CNRS. L'ensemble de ces travaux est fonctionnel en quasi-temps réel sur ces plateformes robotiques réelles.

Mots clés

Gestures classification speech understanding multimodal fusion human-robot interaction.

Classification de gestes compréhension de la parole fusion multimodale vision interaction homme-robot.

Domaines

Automatique / Robotique

Fichier principal

manuscrit_Burger_Brice_final.pdf (6.65 Mo)

Arlette Evrard : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00494382

Soumis le : mercredi 23 juin 2010-09:59:11

Dernière modification le : lundi 20 novembre 2023-11:44:17

Archivage à long terme le : lundi 22 octobre 2012-14:35:44

Dates et versions

tel-00494382 , version 1 (23-06-2010)

Identifiants

HAL Id : tel-00494382 , version 1

Citer

Brice Burger. Fusion de données audio-visuelles pour l'interaction Homme-Robot. Automatique / Robotique. Université Paul Sabatier - Toulouse III, 2010. Français. ⟨NNT : ⟩. ⟨tel-00494382⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS INSA-TOULOUSE LAAS LAAS-TEL UT1-CAPITOLE LAAS-RAP TDS-MACS TEL-INSATOULOUSE INSA-GROUPE TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

277 Consultations

601 Téléchargements

Fusion de données audio-visuelles pour l'interaction Homme-Robot

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager