Optimization of Skyline queries in dynamic contexts

Karim Alami

Résumé

Preference queries are interesting tools to compute small representatives of datasets or to rank tuples based on the users’ preferences. In this thesis, we mainly focus on the optimization of Skyline queries, a special class of preference queries, in dynamic contexts. In a first part, we address the incremental maintenance of the multidimensional indexing structure NSC which has been shown efficient for answering skyline queries in a static context. More precisely, we address (i) the case of dynamic data, i.e. tuples are inserted or deleted at any time, and (ii) the case of streaming data, i.e. tuples are appended only, and discarded after a specific interval of time. In case of dynamic data, we redesign the structure and propose procedures to handle efficiently both insertions and deletions. In case of streaming data, we propose MSSD a data pipeline which operates in batch mode, and maintains NSCt a variation of NSC. In a second part, we address the case of dynamic orders, i.e, some or all attributes of the dataset are nominal and each user expresses his/her own partial order on these attributes’ domain. We propose highly scalable parallel algorithms that decompose an issued query into a set of sub-queries and process each sub-query independently. In a further step for optimization, we propose the partial materialization of sub-queries and introduce the problem of cost-driven sub-queries selection.

Les requêtes de préférence sont des outils intéressants pour calculer des sous-ensembles représentatifs d'ensembles de données en entrée ou pour classer les tuples en fonction des préférences des utilisateurs. Dans cette thèse, nous abordons principalement l'optimisation des requêtes Skyline, une classe spéciale des requêtes de préférence, dans des contextes dynamiques. Dans une première partie, nous abordons la maintenance incrémentale de la structure d'indexation multidimensionnelle NSC qui a été démontrée efficace pour répondre aux requêtes skyline dans un contexte statique. Plus précisément, nous abordons (i) le cas des données dynamiques, c'est-à-dire que des tuples sont insérés ou supprimés à tout moment, et (ii) le cas des données en streaming, c'est-à-dire que les tuples sont insérés et écartés après un intervalle de temps spécifique. En cas de données dynamiques, nous repensons la structure et proposons des procédures pour gérer efficacement les insertions et les suppressions. En cas de données en streaming, nous proposons MSSD un pipeline de données qui gère les données par lot et maintient NSCt une variation de NSC. Dans une deuxième partie, nous abordons le cas des ordres dynamiques, c'est-à-dire que certains ou tous les attributs de l'ensemble de données sont catégoriques et chaque utilisateur exprime son propre ordre partiel sur le domaine de ces attributs. Nous proposons des algorithmes parallèles évolutifs qui décomposent une requête en un ensemble de sous-requêtes et traitent chaque sous-requête indépendamment. Pour optimiser davantage, nous proposons la matérialisation partielle des sous-requêtes et introduisons le problème de la sélection de sous-requêtes en fonction d'un coût.

Optimization of Skyline queries in dynamic contexts

Optimisation des requêtes de préférence skyline dans des contextes dynamiques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager