Modélisation efficiente du corps humain en mouvement

Clément Lemeunier

Résumé

Developing models capable of understanding the dynamics of the human body represents today a significant challenge in the field of computer graphics. Recent developments in the field of motion capture make it possible to generate databases composed of 4D surface models including detailed information on the appearance and movement of the captured subjects. Today, deep learning architectures able to understand and generate text or images are common and have been introduced to the general public. However, transferring the methods used in these architectures to data generated by motion capture is not easy due to the difference in structure. Indeed, the text or images have a regular or Euclidean structure, while the data generated by motion capture are represented by point clouds or triangular meshes which no longer have this regular structure and which reside rather in a non-Euclidean domain. The objective of this thesis is firstly to focus on state-of-the-art works which allow the application of methods used in deep learning to data residing in a more complex and higher dimensional domain. This method transfer research falls into the recently introduced field of study named \emph{Geometric Deep Learning}. Generally speaking, the works interested in this type of data only process the surface information in a static manner and do not take into account the dynamic information of the movement. The main intention is to resolve this problem by combining static surface analysis techniques with methods exploiting the temporal dimension present in the capture of human bodies. The main challenge of the thesis is therefore to combine deep learning, surface analysis and temporal analysis by directing research towards a generative aspect. The second objective is to explore methods for spectral analysis of 3D data allowing the transformation of surfaces in the frequency domain. The structures created by this spectral analysis will be studied in order to understand how they can be exploited to solve the main problem. The second intention is therefore to show that it is possible to develop generative deep learning models applied to 4D data using only the information contained in the spectral domain, the transformation of dynamic surfaces in the frequency domain making it possible to free themselves from the constraints introduced by the non-regularity of their structure. The work presented in this thesis represents two contributions. First, an approach is proposed for processing data from motion capture without taking into account temporal information. This first contribution concerns the exploitation of spectral mesh processing coupled with deep learning techniques, allowing the development of a model capable of creating a representation adapted to the human body. Then, a second contribution allows dynamic information to be taken into account by exploiting the first contribution coupled with an architecture capable of understanding the context of data sequences. Our methods produce results competitive with the state of the art and provide access to a new way of processing this type of data which resides in the domain of 3D and 4D, a currently important challenge in the literature.

Développer des modèles capables de comprendre la dynamique du corps humain représente aujourd'hui un défi important dans le domaine de l'informatique graphique. Les évolutions récentes dans le domaine de la capture de mouvement permettent de générer des bases de données composées de modèles 4D de surfaces incluant l'information détaillée de l'apparence et du mouvement des sujets capturés. Aujourd'hui, les architectures d'apprentissage profond capables de comprendre et de générer du texte ou des images sont courantes et ont été introduites au grand public. Néanmoins, transférer les méthodes utilisées dans ces architectures à des données générées par les captures de mouvement n'est pas évident en raison de la différence de structure. En effet, le texte ou les images ont une structure régulière ou euclidienne, alors que les données générées par les captures de mouvement sont de types nuages de points ou maillages triangulaires qui n'ont plus cette structure régulière et qui résident plutôt dans un domaine non-euclidien. L'objectif du travail de ce doctorat est premièrement de s'intéresser aux travaux de l'état de l'art qui permettent l'application de méthodes utilisées en apprentissage profond à des données résidant dans un domaine plus complexe et de plus haute dimension. Cette recherche de transfert de méthodes tombe dans le champ d'étude récemment introduit et nommé apprentissage profond géométrique (\emph{Geometric Deep Learning}). De manière générale, les travaux s'intéressant à ce type de données ne traitent l'information surfacique que de manière statique et ne prennent pas en compte l'information dynamique du mouvement. L'intention principale est de résoudre cette problématique en combinant des techniques d'analyse de surfaces statiques à des méthodes exploitant la dimension temporelle présente dans la capture de corps humains. Le principal défi de la thèse est donc de coupler apprentissage profond, analyse de surfaces et analyse temporelle en orientant les recherches vers un aspect génératif. Le deuxième objectif est d'explorer les méthodes d'analyse spectrale de données 3D permettant la transformation de surfaces dans le domaine des fréquences. Les structures créées par cette analyse spectrale seront étudiées afin de comprendre comment elles peuvent être exploitées pour résoudre la problématique principale. La seconde intention est donc de montrer qu'il est possible de développer des modèles d'apprentissage profond génératifs appliqués à des données 4D en utilisant seulement l'information contenue dans le domaine spectral, la transformation de surfaces dynamiques dans le domaine des fréquences permettant de s'affranchir des contraintes introduites par la non-régularité de leur structure. Les travaux présentés dans cette thèse représentent deux contributions. D'abord, une approche est proposée pour le traitement de données issues de captures de mouvement sans prendre en compte l'information temporelle. Cette première contribution concerne l'exploitation du traitement spectral de surfaces couplé à des techniques d'apprentissage profond, permettant le développement d'un modèle capable de créer une représentation adaptée au corps humain. Ensuite, une deuxième contribution permet la prise en compte de l'information dynamique en exploitant la première contribution couplée à une architecture capable de comprendre le contexte de séquences de données. Nos méthodes produisent des résultats compétitifs avec l'état de l'art et permettent d'ouvrir la voie vers une nouvelle manière de traiter ce type de données qui résident dans le domaine de la 3D et de la 4D, un défi actuellement important dans la littérature.

Efficient modeling of the human body in motion

Modélisation efficiente du corps humain en mouvement

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager