Inconsistency-aware quantification, query answering and ranking in relational databases - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Inconsistency-aware quantification, query answering and ranking in relational databases

Quantification de l'incohérence et le classement des réponses aux requêtes par le niveau d'incohérence dans les bases de données relationnelles

Résumé

The inconsistency problems in databases and knowledge bases have been largely tackled and discussed in the last forty years. Inconsistency is one of the main dimensions of data quality. In our era, data is the new gold, but data without quality or lack ofquality measures is another burden leading to erroneous and uninformative analysisresults from data. The inconsistency problem arises when a set of constraints thathave to be satisfied by the database instance are violated by this database instance.All the previous works that deal with the problem of inconsistency are focused oneither the repair of the inconsistent database to obtain a new database that is consistent(i.e, there is no violation of constraints), or quantification of the inconsistency inthe entire database. In this thesis, we propose a new approach to handle inconsistencyin relational database by quantifying it on the level of tuples, and then rankingtuples/answers according to their inconsistency to enable choosing among query answersthe most consistent/inconsistent ones. So, we define different new of measuresof inconsistency degrees that based either on tuples violation (tuple-based approach)or on constraints violation(constraint-based approach). We consider the class of denialconstraints as class of constraints and the class of conjunctive queries as class of queries.We leverage why-provenance and polynomial provenance to identify inconsistent tuplesand to compute inconsistency degrees of query answers, respectively. We converteach denial constraint into a boolean conjunctive query and evaluate this last one ondatabase to compute the why-provenance of the true answer. Using why-provenance,each tuple in the database is annotated with the set of constraints that it violates and itsidentifiers in a monomial form (otherwise, i.e, the tuple does not involve in violationof any constraint, then it is annotated by the monomial 1), then we obtain an annotateddatabase. Given a conjunctive query Q, Q is evaluated on the annotated database andeach answer is computed with a polynomial provenance that encodes in a polynomialformula the set of constraints violated by the answers as well as the set of tuples used tocompute answer and involved in violation of these constraints. Then, we define twelvemeasures of inconsistency degrees using the polynomial provenance of answers. Once,measures of inconsistency are defined, it is interesting to allow ranking of answers (tuplesin database) according to their inconsistency degrees. We design a set of top-kalgorithms, including TopINC on which the idea of other algorithms is based, allowingto rank the query answers according to their inconsistency degrees. We introducea new class of algorithms with a new cost model and shown the optimality of thesetop-k algorithms in some specifics conditions. Also, for each top-k algorithm, we giveits theoretical complexity. We have conducted a large experiment to show the feasibilityof our approach in practice and also to show the efficiency of our top-k developedalgorithms.
Les problèmes de l’incohérence dans les bases de données et les bases de connaissances ont été largement abordés et discutés au cours des quarante dernières années.L’incohérence est l’une des principales dimensions de la qualité des données. À notre époque, les données sont le nouvel or, mais les données sans qualité ou l’absence de mesures de qualité peuvent entraîner d’autres fardeaux qui conduisent à des résultats d’analyse erronés et peu informatifs à partir des données. Le problème de l’incohérence survient lorsqu’un ensemble de contraintes qui doivent être satisfaites par l’instance de la base de données sont violées par cette instance. Les travaux précédents qui traitent du problème de l’incohérence se sont intéressés soit de la réparation de la base de données incohérente pour obtenir une nouvelle base de données qui est cohérente(c’est-à-dire qu’il n’y a pas de violation des contraintes), soit sur la quantification de l’incohérence dans la base de données entière. Dans cette thèse, nous proposons une nouvelle approche pour gérer l’incohérence dans les bases de données relationnelles en la quantifiant au niveau des tuples, puis en classant les tuples/réponses selon leur incohérence pour permettre de choisir parmi les réponses aux requêtes celles qui sont les plus cohérentes/inconsistantes. Ainsi, nous définissons différentes nouvelles mesures de degrés de l’incohérence basées soit sur la violation des tuples. Nous considérons la classe des contraintes de déni (denial constraint en anglais) et la classe des requêtes conjonctives.Nous tirons parti des méthodes why-provenance et polynomial provenance pour identifier les tuples incohérents et pour calculer les degrés de l’incohérence des réponses aux requêtes, respectivement. Nous convertissons chaque contrainte de dénien une requête booléenne conjonctive et évaluons cette dernière sur la base de données pour calculer le why-provenance de la réponse true. En utilisant le why-provenance, chaque ligne de la base de données est annotée avec l’ensemble des contraintes qu’elle viole et son identifiant sous une forme de monôme (dans le cas contraire, c’est-à-dire si la ligne de donées n’est impliquée dans aucune violation de contrainte, elle est alors annotée par le monôme 1), on obtient alors une base de données annotée. Étant donné une requête conjonctive Q, Q est évaluée sur la base de données annotée et chaque réponse est calculée avec une provenance polynomiale qui encode dans une formule polynomiale l’ensemble des contraintes violées par les réponses ainsi que l’ensemble des lignesde données utilisées pour calculer la réponse et impliquées dans la violation de ces contraintes. Ensuite, nous définissons douze mesures de degré de l’incohérence en utilisant la provenance polynomiale des réponses. Une fois les mesures d’incohérence définies, il est intéressant de permettre le classement des réponses aux requêtes en fonction de leur degré d’incohérence. Nous concevons un ensemble d’algorithmes detop-k, dont TopINC sur lequel est basée l’idée des autres algorithmes, permettant declasser les réponses aux requêtes en fonction de leurs degrés d’incohérence. Nous introduisons une nouvelle classe d’algorithmes avec un nouveau modèle de coût et montrons l’optimalité de ces algorithmes de top-k dans certaines conditions spécifiques. De3plus, pour chaque algorithme de top-k, nous donnons sa complexité théorique. Nous avons mené une grande expérience pour montrer la faisabilité de notre approche en pratique et aussi pour montrer l’efficacité de nos algorithmes de top-k développés.
Fichier principal
Vignette du fichier
2022UCFAC010_ISSA.pdf (1.56 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03859885 , version 1 (18-11-2022)

Identifiants

  • HAL Id : tel-03859885 , version 1

Citer

Ousmane Issa. Inconsistency-aware quantification, query answering and ranking in relational databases. Databases [cs.DB]. Université Clermont Auvergne, 2022. English. ⟨NNT : 2022UCFAC010⟩. ⟨tel-03859885⟩
64 Consultations
56 Téléchargements

Partager

Gmail Facebook X LinkedIn More