Restitution sonore hiérarchique et perceptive d'environnements virtuels multi-modaux

Emmanuel Gallo

Résumé

This thesis concentrates on real-time acoustic simulations for virtual reality applications or video games. Such applications require huge computing times, increasing with the complexity of the scene and involving difficulties for interactive rendering. In particular, the real-time simulation of a complex sound scene remains difficult due to the independent processing of each sound source.
Moreover, the description of the auditory scene requires specifying the nature and the position of each sound source, which is a long and tedious process. To solve these problems, we studied the possibility of performing the acoustic simulation by leveraging the computing power of latest generation graphics processors. The results show that their massively parallel architecture is well suited to such processing, increasing significantly the performances compared to current general purpose processors. We were interested thereafter in developing an algorithm exploiting the human perception in order to render an auditory scene by respecting a target budget of operations while minimizing audible artifacts. The proposed algorithm evaluates an importance metric for each signal on very fine time-intervals. Then, it performs the required signal processing operations by descending priority order until the target budget is reached. A subjective evaluation was made to assess different importance metrics.
Finally, we developed an alternative method of sound acquisition which avoids the individual modeling of each source. From simultaneous monophonic recordings of a real scene, this method extracts the scene components. We analyze time-delay-of-arrival in the recorded signals in several frequency bands. From this information, a position is extracted for the most significant sound source in each band. The components from each source can then be re-rendered at the corresponding locations. Using this method, we can also edit the acquired scene. For instance, we can move or delete a sound source, or change the position of the listener in real-time. We can also composite several elements coming from different recordings while ensuring overall spatial coherence.

Ce travail porte sur la simulation acoustique temps-réel pour des applications de réalité virtuelle ou les jeux vidéo. Ce type d'application nécessite des temps de calcul considérables, augmentant avec la complexité de la scène et impliquant des difficultés pour le rendu interactif. La simulation d'une scène sonore complexe reste encore difficile à réaliser en temps réel à cause du coût de la gestion indépendante des sources sonores. De plus, la description de la scène sonore nécessite de spécifier la nature et la position de chaque source sonore qui la compose, ce qui est une étape longue et fastidieuse. Dans ce cadre, nous avons étudié la possibilité d'effectuer la simulation acoustique en tirant parti de la puissance de calcul des cartes graphiques de dernière génération.
Les résultats montrent que l'architecture hautement parallèle de ces cartes est appropriée pour ce type de calcul, augmentant grandement les performances par rapport aux processeurs actuels. Nous nous sommes intéressés par la suite à développer un algorithme exploitant l'audition humaine, permettant d'effectuer un rendu sonore de la scène en respectant un budget d'opérations donné. Pour cela, l'algorithme évalue une métrique d'importance pour chaque signal à traiter sur des intervalles de temps très fins. Puis il effectue les opérations par ordre de priorité jusqu'à atteindre le budget fixé. Une évaluation subjective a été effectuée pour comparer différentes métriques d'importance.
Enfin, nous avons élaboré une méthode alternative d'acquisition de scène sonore qui évite la modélisation individuelle de chaque source. A partir d'enregistrements monophoniques simultanés d'une scène réelle, cette méthode en détache les sources qui la composent. En étudiant les différences de temps d'arrivée des enregistrements sur plusieurs bandes de fréquence, une position est extraite pour la source sonore émettrice la plus présente dans chaque bande. Les composantes de chaque source peuvent ensuite être spatialisées
aux positions trouvées. En utilisant ce principe, nous pouvons également rééditer la scène acquise. Par exemple, nous pouvons déplacer ou supprimer une source, ou changer la position de l'auditeur en temps réel. Nous pouvons aussi combiner plusieurs éléments provenant de différents enregistrements tout en assurant une cohérence spatiale globale.

Perceptual sound rendering for multi-modal virtual environments

Restitution sonore hiérarchique et perceptive d'environnements virtuels multi-modaux

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager