Harmonisation de l'information géo-scientifique de bases de données industrielles par mesures automatiques de ressemblance

Alba Fuga

Résumé

In order to harmonize industrial seismic navigation data bases, a methodology and a software have been developed. The methodology of Similarity Measurement Automation provides protocols to build a model and a hierarchy for the comparison criteria that shall be used as points of reference for the automation. With its tolerance set of thresholds, the model has been used as a scaled filter within the automatic classification process which aim is to find as quickly as possible very similar data. Similarity is measured by combinations of elementary metrics giving scores, and also by a global and contextual procedure, giving access to three levels of results: similarity between attributes, between individuals, and between groups. Accurate automated analyses of the expert system as well as human interpretations on multiple criteria are now possible thanks to these similarity estimations, reducing to two days instead of three weeks the work of a geophysicist. Classification strategies have been designed to suit the different data management issues, as well as harmonization, reconciliation or geo-referencing. The methodology has been implemented in software for automatic comparisons named LAC, and developed for Data Management and Technical Documentation services in TOTAL. The software has been industrialized and has been used for three years, even if now there is no technical maintenance anymore. The last data base visualization functionalities that have been developed have not been integrated yet to the software, but shall provide a better visualization of the phenomena. This latest way to visualize data is based on similarity measurement and obtains an image of complex and voluminous data clear enough. It also puts into relief information useful for harmonization and data quality evaluation. Would it be possible to characterize, compare, analyze and manage data flows, to monitor their evolution and figure out new machine learning methods by developing further this kind of data base imaging?

Pour automatiser l’harmonisation des bases de données industrielles de navigation sismique, une méthodologie et un logiciel ont été mis en place. La méthodologie d’Automatisation des Mesures de Ressemblance (AMR), permet de modéliser et hiérarchiser les critères de comparaison servant de repères pour l’automatisation. Accompagné d’un ensemble de seuils de tolérance, le modèle hiérarchisé a été utilisé comme filtre à tamis dans le processus de classification automatique permettant de trouver rapidement les données fortement similaires. La similarité est mesurée par un ensemble de métriques élémentaires, aboutissant à des scores numériques, puis elle est mesurée de manière plus globale et contextuelle, notamment suivant plusieurs échelles : entre les attributs, entre les données, et entre les groupes. Ces évaluations de la similarité permettent à la fois au système expert de présenter des analyses précises automatisées et à l’expert géophysicien de réaliser des interprétations multicritères en faisant en environ deux jours le travail qu’il faisait en trois semaines. Les stratégies de classification automatique sont quant à elles adaptables à différentes problématiques, à l’harmonisation des données, mais aussi à la réconciliation des données ou au géo-référencement de documents techniques. Le Logiciel Automatique de Comparaisons (LAC) est une implantation de l’AMR réalisée pour les services de Data Management et de Documentation Technique de TOTAL. L’outil industrialisé est utilisé depuis trois ans, mais n’est plus en maintenance informatique aujourd’hui malgré son usage. Les nouvelles fonctionnalités d'imagerie de base de données qui ont été développées dans cette thèse n'y sont pas encore intégrées, mais devraient permettre une meilleure visualisation des phénomènes. Cette dernière manière de représenter les données, fondée sur la mesure de similarité, permet d’avoir une image assez claire de données lourdes car complexes tout en permettant de lire des informations nécessaires à l’harmonisation et à l’évaluation de la qualité des bases. Ne pourrait-on pas chercher à caractériser, comparer, analyser, gérer les flux entrants et sortants des bases de données, suivre leurs évolutions et tirer des modes d’apprentissage automatique à partir du développement de cette imagerie ?

Harmonization of geo-scientific information in industrial data bases, thanks to automatic similarity metrics

Harmonisation de l'information géo-scientifique de bases de données industrielles par mesures automatiques de ressemblance

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager