Skip to Main content Skip to Navigation
Theses

audio-visual multiple-speaker tracking for robot perception

Résumé : La perception des robots joue un rôle crucial dans l’interaction homme-robot (HRI). Le système de perception fournit les informations au robot sur l’environnement, ce qui permet au robot de réagir en consequence. Dans un scénario de conversation, un groupe de personnes peut discuter devant le robot et se déplacer librement. Dans de telles situations, les robots sont censés comprendre où sont les gens, ceux qui parlent et de quoi ils parlent. Cette thèse se concentre sur les deux premières questions, à savoir le suivi et la diarisation des locuteurs. Nous utilisons différentes modalités du système de perception du robot pour remplir cet objectif. Comme pour l’humain, l’ouie et la vue sont essentielles pour un robot dans un scénario de conversation. Les progrès de la vision par ordinateur et du traitement audio de la dernière décennie ont révolutionné les capacités de perception des robots. Dans cette thèse, nous développons les contributions suivantes : nous développons d’abord un cadre variationnel bayésien pour suivre plusieurs objets. Le cadre bayésien variationnel fournit des solutions explicites, rendant le processus de suivi très efficace. Cette approche est d’abord appliqué au suivi visuel de plusieurs personnes. Les processus de créations et de destructions sont en adéquation avec le modèle probabiliste proposé pour traiter un nombre variable de personnes. De plus, nous exploitons la complémentarité de la vision et des informations du moteur du robot : d’une part, le mouvement actif du robot peut être intégré au système de suivi visuel pour le stabiliser ; d’autre part, les informations visuelles peuvent être utilisées pour effectuer l’asservissement du moteur. Par la suite, les informations audio et visuelles sont combinées dans le modèle variationnel, pour lisser les trajectoires et déduire le statut acoustique d’une personne : parlant ou silencieux. Pour expérimenter un scenario où l’information visuelle est absente, nous essayons le modèle pour la localisation et le suivi des locuteurs basé sur l’information acoustique uniquement. Les techniques de déréverbération sont d’abord appliquées, dont le résultat est fourni au système de suivi. Enfin, une variante du modèle de suivi des locuteurs basée sur la distribution de von-Mises est proposée, celle-ci étant plus adaptée aux données directionnelles. Toutes les méthodes proposées sont validées sur des bases de données specifiques à chaque application.
Complete list of metadatas

Cited literature [182 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02163418
Contributor : Team Perception <>
Submitted on : Thursday, September 12, 2019 - 12:23:34 AM
Last modification on : Friday, July 3, 2020 - 4:46:56 PM

File

Thesis_Ban.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-02163418, version 4

Collections

Citation

Yutong Ban. audio-visual multiple-speaker tracking for robot perception. Artificial Intelligence [cs.AI]. Université Grenoble Alpes, 2019. English. ⟨NNT : 2019GREAM017⟩. ⟨tel-02163418v4⟩

Share

Metrics

Record views

116

Files downloads

685