Exploring domain-informed and physics-guided learning in image-to-image translation - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Exploring domain-informed and physics-guided learning in image-to-image translation

Exploration de la connaissance de domaine et de la physique pour l'apprentissage de la translation d'image-à-image

Résumé

Image-to-image (i2i) translation networks can generate fake images beneficial for many applications in augmented reality, computer graphics, and robotics. However, they require large-scale datasets and high contextual understanding to be trained correctly. In this thesis, we propose strategies for solving these problems, improving performances of i2i translation networks by using domain- or physics-related priors. The thesis is divided into two parts. In Part I, we exploit human abstraction capabilities to identify existing relationships in images, thus defining domains that can be leveraged to improve data usage efficiency. We use additional domain-related information to train networks on web-crawled data, hallucinate scenarios unseen during training, and perform few-shot learning. In part II, we instead rely on physics priors. First, we combine realistic physics-based rendering with generative networks to boost outputs realism and controllability. Then, we exploit naive physical guidance to drive a manifold reorganization, which allows generating continuous conditions such as timelapses.
Les réseaux de translation d'image à image (i2i) peuvent générer des images synthétiques utiles pour de multiples applications en réalité augmentée, infographie et robotique. Cependant, ils nécessitent des jeux de données à grande échelle et une compréhension contextuelle élevée pour être entraînés correctement. Dans cette thèse, nous proposons des stratégies pour résoudre ces problèmes, en améliorant les performances des réseaux de translation i2i en utilisant des a priori liés au domaine ou à la physique. La thèse est divisée en deux parties. Dans la partie I, nous exploitons les capacités d'abstraction humaines pour identifier les relations existantes dans les images, définissant ainsi des domaines qui peuvent être exploités pour améliorer l'efficacité de l'utilisation des données. Nous utilisons des informations supplémentaires liées au domaine pour entraîner des réseaux sur des données extraites sur le web, pour halluciner des scénarios non observés lors de l'entraînement et pour apprendre avec peu d'exemples. Dans la partie II, nous nous appuyons plutôt sur des a priori physiques. Tout d'abord, nous combinons un rendu réaliste basé sur la physique avec des réseaux génératifs afin de renforcer le réalisme et la contrôlabilité des sorties. Ensuite, nous exploitons un guidage physique naïf pour piloter une réorganisation du manifold, ce qui permet une translation continu par exemple, pour des timelapses.
Fichier principal
Vignette du fichier
2022UPSLM064_archivage.pdf (94.77 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04014987 , version 1 (05-03-2023)
tel-04014987 , version 2 (04-05-2023)

Identifiants

  • HAL Id : tel-04014987 , version 2

Citer

Fabio Pizzati. Exploring domain-informed and physics-guided learning in image-to-image translation. Robotics [cs.RO]. Université Paris sciences et lettres; Università degli studi (Bologne, Italie), 2022. English. ⟨NNT : 2022UPSLM064⟩. ⟨tel-04014987v2⟩
125 Consultations
3 Téléchargements

Partager

Gmail Facebook X LinkedIn More