Qualité contextuelle des données : détection et nettoyage guidés par la sémantique des données

Résumé : De nos jours, les applications complexes telles que l'extraction de connaissances, la fouille de données, le E-learning ou les applications web utilisent des données hétérogènes et distribuées. Dans ce contexte, la qualité de toute décision dépend de la qualité des données utilisées. En effet, avec l'absence de données riches, précises et fiables, une organisation peut prendre potentiellement de mauvaises décisions. L'objectif de cette thèse consiste à assister l'utilisateur dans sa démarche qualité. Il s'agit de mieux extraire, mélanger, interpréter et réutiliser les données. Pour cela, il faut rattacher aux données leurs sens sémantiques, leurs types, leurs contraintes et leurs commentaires. La première partie s'intéresse à la reconnaissance sémantique du schéma d'une source de données. Elle permet d'extraire la sémantique des données à partir de toutes les informations disponibles, incluant les données et les métadonnées. Elle consiste, d'une part, à classifier les données en leur attribuant une catégorie et éventuellement une sous-catégorie, et d'autre part, à établir des relations inter colonnes et de découvrir éventuellement la sémantique de la source de données manipulée. Ces liens inter colonnes une fois détectés offrent une meilleure compréhension de la source ainsi que des alternatives de correction des données. En effet, cette approche permet de détecter de manière automatique un grand nombre d'anomalies syntaxiques et sémantiques. La deuxième partie consiste à nettoyer les données en utilisant les rapports d'anomalies fournis par la première partie. Elle permet une correction intra colonne (homogénéisation des données), inter colonnes (dépendances sémantique) et inter lignes (élimination des doublons et similaire). Tout au long de ce processus, des recommandations ainsi que des analyses sont proposées à l'utilisateur.
Type de document :
Thèse
Performance et fiabilité [cs.PF]. Université Sorbonne Paris Cité, 2015. Français. 〈NNT : 2015USPCD054〉
Liste complète des métadonnées

Littérature citée [127 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-01662471
Contributeur : Abes Star <>
Soumis le : mercredi 13 décembre 2017 - 10:54:31
Dernière modification le : jeudi 11 janvier 2018 - 06:17:33

Fichier

edgalilee_th_2015_ben_salem.pd...
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01662471, version 1

Collections

Citation

Aïcha Ben Salem. Qualité contextuelle des données : détection et nettoyage guidés par la sémantique des données. Performance et fiabilité [cs.PF]. Université Sorbonne Paris Cité, 2015. Français. 〈NNT : 2015USPCD054〉. 〈tel-01662471〉

Partager

Métriques

Consultations de la notice

303

Téléchargements de fichiers

464