Learning to translate land-cover maps

Luc Baudoux

Résumé

The description of the bio-physical coverage of the Earth's surface, termed land-cover, is of utmost importance in recent decades in many areas, ranging from urban planning to climate studies and food security. Historically manually produced, land-cover maps now take advantage of the recent boom of satellite imagery and computer vision techniques to gain more accuracy and higher update frequency. However, they still suffer from two disadvantages limiting their use. On the one hand, the land cover map spatial resolution is fixed, while a map at 10-meter spatial resolution will not be suitable for analysing large-scale phenomena, nor for monitoring objects less than 10 meters. On the other hand, the map nomenclature is chosen to meet a specific need which does not necessarily suit another user's needs. For instance, a nomenclature may group under the term "built-up areas" a set of elements such as "roads" and "dwellings", which other nomenclatures may classify separately. Current approaches target to adapt these nomenclatures and spatial resolutions. They are mainly based on pure semantic translation methods (LCCS...) applied at the nomenclature level by comparing class definitions. In doing so, they neglect that two objects of the same class can be translated differently depending, for instance, on their spatial context or temporal evolution. This thesis addresses this interleaved problem by proposing context-wise translation methods to increase re-use possibilities and new land-cover map generation. First, we propose different strategies, mainly based on convolution neural networks, learning to translate a source map into a target map context-wisely. In particular, we show the crucial importance of taking into account spatial and geographical contexts (a forest in the mountains is probably occupied by conifers) on multiple translation cases. Secondly, based on the observation that multi-language translation models provide better results than those trained to translate from a single source language to a single target language, we propose a multi-map translation framework allowing us to obtain several target nomenclatures from a unique source map. We show that this model allows for more robust results than models trained on a single translation, especially on maps with limited training samples. Thirdly, we experiment with different multi-modal fusion configurations merging satellite images (optical and radar) and elevation data with land-cover maps. Finally, we define the concept of, and propose a method to build, a semantic representation space common for all land-cover maps, no longer representing the translation as the transformation from a discrete representation space with n classes (a nomenclature) to another but as a simple change of the interpretation of a continuous semantic representation space shared between all nomenclatures. We propose the first application of the concept of common semantic representation space to translation, focusing on the translation of source maps unseen during the translation model training. The codes and datasets (France-wide, six land-cover maps, satellite imagery, and hand-annotated ground truth) produced during this thesis are also accessible for reproducibility and potential comparison purposes.

La description de la couverture biophysique des surfaces terrestres, appelée occupation du sol, est d'une importance capitale dans de nombreux domaines, allant de l'urbanisme aux études climatiques en passant par la sécurité alimentaire. Historiquement produites à la main, les cartes d'occupation du sol ont profité de l'essor de l'imagerie satellitaire et des méthodes avancées de vision par ordinateur pour gagner en précision et en fréquence de mise à jour. Elles souffrent toutefois de deux inconvénients limitant leur utilisation. D'une part, la résolution spatiale des cartes produites est fixe. Or une carte d'une résolution de 10 mètres ne conviendra pas à l'analyse de phénomènes à grande échelle, ni à l'étude d'objets de moins de 10 mètres. D'autre part, la nomenclature de la carte est choisie pour répondre à un besoin spécifique qui ne correspond pas nécessairement aux besoins d'un autre utilisateur. Ainsi, une carte peut regrouper sous le terme "bâti" un ensemble d'éléments tels que des "routes" et des "habitations", qui dans d'autres nomenclatures seront classés séparément. Les approches actuelles de traduction de nomenclatures sont principalement fondées sur des méthodes de traduction sémantique (LCCS...) appliquées au niveau de la nomenclature en comparant les définitions de classes (la classe "blé" sera traduite en "herbacée"). Ce faisant, elles négligent le fait que deux objets de la même classe peuvent être traduits différemment en fonction, par exemple, de leur contexte spatial ou de leur évolution temporelle. En outre, la traduction de la résolution spatiale est généralement traitée distinctement de la traduction de nomenclature alors que ces deux notions sont intimement liées (un arbre seul ne peut pas être traduit en "forêt"). Cette thèse aborde ce problème en proposant des méthodes de traduction contextuelle augmentant les possibilités de réutilisation et de génération de nouvelles occupations des sols. Dans un premier temps, nous proposons différentes stratégies, principalement fondées sur des réseaux de neurones à convolution apprenant à traduire une carte source en une carte cible en fonction du contexte. Nous montrons l'importance cruciale du contexte spatial et géographique (une forêt en montagne est probablement constituée de conifères) sur de multiples exemples de traductions. Dans un deuxième temps, partant du constat que les modèles de traduction multi-langues donnent de meilleurs résultats que ceux entraînés à traduire d'une seule langue source vers une seule langue cible, nous proposons un modèle de traduction multi-cartes permettant d'obtenir plusieurs nomenclatures cibles à partir d'une carte source. Nous montrons que ce modèle permet d'obtenir des résultats plus robustes que les modèles entraînés sur une seule traduction, en particulier sur des cartes avec peu d'échantillons d'entraînement. Troisièmement, nous expérimentons différentes configurations de fusion multimodale fusionnant des images satellites (optiques et radar) et des données d'élévation du terrain avec des cartes d'occupation du sol. Enfin, nous définissons la notion et proposons une méthode pour construire un espace de représentation sémantique commun à toutes les occupations du sol. Nous ne représentons alors plus la traduction comme le passage d'un espace de représentation discret à n classes (une nomenclature) vers un autre espace, mais comme un simple changement d'interprétation d'un espace de représentation sémantique continu commun à toutes les nomenclatures. Nous proposons une première application de la notion d'espace de représentation sémantique à la traduction, en nous concentrant sur la traduction de cartes sources non vues pendant l’entraînement du modèle de traduction. Les codes et jeux de données (France entière, six cartes d'occupation du sol, images satellite, vérité terrain) produits au cours de cette thèse sont rendus accessibles pour la reproductibilité et des comparaisons futures.

Learning to translate land-cover maps

Apprendre à traduire des cartes d'occupation des sols

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager