Data quality issues in mobile crowdsensing environments - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2023

Data quality issues in mobile crowdsensing environments

Qualité des données dans les environnements de capteurs mobiles

Résumé

Mobile crowdsensing has emerged as a powerful paradigm for harnessing the collective sensing capabilities of mobile devices to gather diverse data in real-world settings. However, ensuring the quality of the collected data in mobile crowdsensing environments (MCS) remains a challenge because low-cost nomadic sensors can be prone to malfunctions, faults, and points of failure. The quality of the collected data can significantly impact the results of the subsequent analyses. Therefore, monitoring the quality of sensor data is crucial for effective analytics.In this thesis, we have addressed some of the issues related to data quality in mobile crowdsensing environments. First, we have explored issues related to data completeness. The mobile crowdsensing context has specific characteristics that are not all captured by the existing factors and metrics. We have proposed a set of quality factors of data completeness suitable for mobile crowdsensing environments. We have also proposed a set of metrics to evaluate each of these factors. In order to improve data completeness, we have tackled the problem of generating missing values.Existing data imputation techniques generate missing values by relying on existing measurements without considering the disparate quality levels of these measurements. We propose a quality-aware data imputation approach that extends existing data imputation techniques by taking into account the quality of the measurements.In the second part of our work, we have focused on anomaly detection, which is another major problem that sensor data face. Existing anomaly detection approaches use available data measurements to detect anomalies, and are oblivious of the quality of the measurements. In order to improve the detection of anomalies, we propose an approach relying on clustering algorithms that detects pattern anomalies while integrating the quality of the sensor into the algorithm.Finally, we have studied the way data quality could be taken into account for analyzing sensor data. We have proposed some contributions which are the first step towards quality-aware sensor data analytics, which consist of quality-aware aggregation operators, and an approach that evaluates the quality of a given aggregate considering the data used in its computation.
Les environnements de capteurs mobiles sont devenus le paradigme de référence pour exploiter les capacités de collecte des appareils mobiles et recueillir des données variées en conditions réelles. Pour autant, garantir la qualité des données recueillies reste une tâche complexe car les capteurs, souvent à bas coûts et ne fonctionnant pas toujours de façon optimale, peuvent être sujets à des dysfonctionnements, des erreurs, voire des pannes. Comme la qualité des données a un impact direct et significatif sur les résultats des analyses ultérieures, il est crucial de l'évaluer. Dans notre travail, nous nous intéressons à deux problématiques majeures liées à la qualité des données recueillies par les environnements de capteurs mobiles.Nous nous intéressons en premier à la complétude des données et nous proposons un ensemble de facteurs de qualité adapté à ce contexte, ainsi que des métriques permettant de les évaluer. En effet, les facteurs et métriques existants ne capturent pas l'ensemble des caractéristiques associées à la collecte de données par des capteurs. Afin d'améliorer la complétude des données, nous nous sommes intéressés au problème de génération des données manquantes. Les techniques actuelles d'imputation de données génèrent les données manquantes en se reposant sur les données existantes, c'est à dire les mesures déjà réalisées par les capteurs, sans tenir compte de la qualité de ces données qui peut être très variable. Nous proposons donc une approche qui étend les techniques existantes pour permettre la prise en compte de la qualité des données pendant l'imputation. La deuxième partie de nos travaux est consacrée à la détection d'anomalies dans les données de capteurs. Tout comme pour l'imputation de données, les techniques permettant de détecter des anomalies utilisent des métriques sur les données mais ignorent la qualité des ces dernières. Pour améliorer la détection, nous proposons une approche fondés sur des algorithmes de clustering qui intègrent la qualité des capteurs dans le processus de détection des anomalies.Enfin, nous nous sommes intéressés à la façon dont la qualité des données pourrait être prise en compte lors de l'analyse de données issues de capteurs. Nous proposons deux contributions préliminaires: des opérateurs d'agrégation qui considère la qualité des mesures, et une approche pour évaluer la qualité d'un agrégat en fonction des données utilisées dans son calcul.
Fichier principal
Vignette du fichier
108147_MEHANNA_2023_archivage.pdf (3.86 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04318136 , version 1 (01-12-2023)

Identifiants

  • HAL Id : tel-04318136 , version 1

Citer

Souheir Mehanna. Data quality issues in mobile crowdsensing environments. Signal and Image Processing. Université Paris-Saclay, 2023. English. ⟨NNT : 2023UPASG053⟩. ⟨tel-04318136⟩
86 Consultations
32 Téléchargements

Partager

Gmail Facebook X LinkedIn More