Approximation of OLAP queries on data warehouses

Phuong Thao Cao

Thèse Année : 2013

Approximation of OLAP queries on data warehouses

Approximation aux requêtes OLAP sur les entrepôts de données

(1)

Phuong Thao Cao

Fonction : Auteur

Laboratoire de Recherche en Informatique

Résumé

We study the approximate answers to OLAP queries on data warehouses. We consider the relative answers to OLAP queries on a schema, as distributions with the L1 distance and approximate the answers without storing the entire data warehouse. We first introduce three specific methods: the uniform sampling, the measure-based sampling and the statistical model. We introduce also an edit distance between data warehouses with edit operations adapted for data warehouses. Then, in the OLAP data exchange, we study how to sample each source and combine the samples to approximate any OLAP query. We next consider a streaming context, where a data warehouse is built by streams of different sources. We show a lower bound on the size of the memory necessary to approximate queries. In this case, we approximate OLAP queries with a finite memory. We describe also a method to discover the statistical dependencies, a new notion we introduce. We are looking for them based on the decision tree. We apply the method to two data warehouses. The first one simulates the data of sensors, which provide weather parameters over time and location from different sources. The second one is the collection of RSS from the web sites on Internet.

Nous étudions les réponses proches à des requêtes OLAP sur les entrepôts de données. Nous considérons les réponses relatives aux requêtes OLAP sur un schéma, comme les distributions avec la distance L1 et rapprocher les réponses sans stocker totalement l'entrepôt de données. Nous présentons d'abord trois méthodes spécifiques: l'échantillonnage uniforme, l'échantillonnage basé sur la mesure et le modèle statistique. Nous introduisons également une distance d'édition entre les entrepôts de données avec des opérations d'édition adaptées aux entrepôts de données. Puis, dans l'échange de données OLAP, nous étudions comment échantillonner chaque source et combiner les échantillons pour rapprocher toutes requêtes OLAP. Nous examinons ensuite un contexte streaming, où un entrepôt de données est construit par les flux de différentes sources. Nous montrons une borne inférieure de la taille de la mémoire nécessaire aux requêtes approximatives. Dans ce cas, nous avons les réponses pour les requêtes OLAP avec une mémoire finie. Nous décrivons également une méthode pour découvrir les dépendances statistique, une nouvelle notion que nous introduisons. Nous recherchons ces dépendances en basant sur l'arbre de décision. Nous appliquons la méthode à deux entrepôts de données. Le premier simule les données de capteurs, qui fournissent des paramètres météorologiques au fil du temps et de l'emplacement à partir de différentes sources. Le deuxième est la collecte de RSS à partir des sites web sur Internet.

Mots clés

OLAP Approximate query answering OLAP data exchange Streaming data Edit distance Sampling algorithm Statistical dependencies Statistical model

OLAP Réponses proches de la requête Échange de données OLAP Flux de données Distance d'édition Algorithme d'échantillonnage Dépendances statistiques Modèle statistique

Domaines

Autre [cs.OH]

Fichier principal

VA2_CAO_PHUONG_THAO_20062013.pdf (2.43 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-00905292

Soumis le : lundi 18 novembre 2013-09:58:17

Dernière modification le : samedi 10 février 2024-03:07:59

Archivage à long terme le : mercredi 19 février 2014-04:35:30

Dates et versions

tel-00905292 , version 1 (18-11-2013)

Identifiants

HAL Id : tel-00905292 , version 1

Citer

Phuong Thao Cao. Approximation of OLAP queries on data warehouses. Other [cs.OH]. Université Paris Sud - Paris XI, 2013. English. ⟨NNT : 2013PA112091⟩. ⟨tel-00905292⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS CNRS STAR UMR8623 UNIV-PARIS-SACLAY

390 Consultations

579 Téléchargements

Approximation of OLAP queries on data warehouses

Approximation aux requêtes OLAP sur les entrepôts de données

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager