Utilisation des vues matérialisées, des index et de la fragmentation dans la conception logique et physique d'un entrepôt de données

Ladjel Bellatreche

Résumé

A data warehouse is a collection of subject-oriented, integrated, non-volatile, and historical data, organized to support a decision-support process. Typically, this process is carried out via OLAP (online analytical processing) queries. These queries are generally complex, containing numerous join and grouping operations and inducing very high response times. In this context, our work focuses on various techniques for improving the performance of data warehouses to best support queries. They address two levels of warehouse design: the logical and the physical. At the logical level, we suggest a methodology for fragmenting warehouse data structures. At the physical level, we are interested in (1) the definition and selection of join indexes in the presence of materialized views and (2) the distribution of disk space between materialized views and indexes. As far as indexing is concerned, we propose a new joint indexing technique called joint graph index. This type of index is specific to Relational OLAP (ROLAP) warehouses. They can be used on views, dimension tables, and fact tables. They considerably reduce query execution costs. A strategy for query execution in the presence of join graph indexes. We then formulate the problem of joint index selection in the presence of a disk space constraint and propose three optimal or near-optimal resolution algorithms (one exhaustive algorithm and two gluttonous algorithms). The problem of distributing disk space between materialized views and indexes has been posed fairly recently and few works have addressed it. In this dissertation, we formulate this problem in the static case (where all warehouse parameters are known a priori) and in the dynamic case (some warehouse parameters must be re-evaluated after update operations) and we propose a solution algorithm based on the interaction between two agents, one operating on behalf of views and the other on behalf of indexes. The benefits of fragmentation are well-known in relational databases. For warehouses, we justify that horizontal fragmentation appears more particularly appropriate and propose a horizontal fragmentation methodology for decomposing a star-shaped warehouse schema. We then show that fragmentation algorithms based solely on query access frequencies are not the most interesting. We suggest two new types of algorithms. The first type is driven by affinities between predicates and the second is driven by a cost model. For the latter category, we compare an exhaustive algorithm listing all fragmentation patterns with an approximate algorithm.

Un entrepôt de données est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour supporter un processus d'aide à la décision. Typiquement ce processus est mené par l'intermédiaire de requêtes de type OLAP (on-line analytical processing). Ces requêtes sont généralement complexes car elles contiennent de nombreuses opérations de jointure et de regroupement et induisent des temps de réponse très élevés. Dans ce contexte, nos travaux s'intéressent à diverses techniques d'amélioration des performances des entrepôts de données pour favoriser au mieux les requêtes. Ils interpellent deux niveaux de la conception des entrepôts : le niveau logique et le niveau physique. Au niveau logique, nous suggérons une méthodologie de fragmentation des structures de données de l'entrepôt. Au niveau physique, nous nous intéressons (1) a la définition et a la sélection d'index de jointure en présence des vues matérialisées et (2) a la distribution de l'espace disque entre les vues matérialisées et les index. En ce qui concerne l'indexation, nous proposons une nouvelle technique d'indexation de jointure appelée index de graphe de jointure. Ce type d'index est spécifique aux entrepôts de type ROLAP (Relational OLAP). Ils peuvent être utilises sur les vues, les tables de dimensions et la table des faits. Ils permettent de réduire considérablement le cout d'exécution des requêtes. Une stratégie d'exécution des requêtes en présence des index de graphe de jointure est décrite, et un modèle de cout évaluant le cout d'exécution d'un ensemble de requêtes est développé. Nous formulons ensuite le problème de sélection d'index de jointure en présence d'une contrainte d'espace disque et nous proposons trois algorithmes de résolution optimaux ou quasi-optimaux (un algorithme exhaustif et deux algorithmes gloutons). Le problème de la distribution de l'espace disque entre les vues matérialisées et les index a été pose assez récemment et peu de travaux l'ont interpellé. Dans ce mémoire, nous formulons ce problème dans le cas statique (ou tous les paramétrés de l'entrepôt sont connus a priori) et dans le cas dynamique (certains des paramétrés de l'entrepôt doivent être réévalués après les opérations de mises à jour) et nous proposons un algorithme approche de résolution base sur l'interaction entre deux agents, l'un opérant pour le compte des vues et l'autre pour le compte des index. L'intérêt de la fragmentation est bien connu dans les bases de données relationnelles. Pour les entrepôts, nous justifions que la fragmentation horizontale apparait plus spécialement appropriée et nous proposons une méthodologie de fragmentation horizontale pour décomposer un schéma d'entrepôt en étoile. Nous montrons ensuite que les algorithmes de fragmentation bases uniquement sur les fréquences d'accès des requêtes ne sont pas les plus intéressants. Nous suggérons deux nouveaux types d'algorithmes. Le premier type est dirigé par les affinités entre prédicats et le deuxième est dirigé par un modèle de coût. Pour cette dernière catégorie nous comparons un algorithme exhaustif recensant tous les schémas de fragmentation et un algorithme approximatif.

Using materialized views, indexes and fragmentation in the logical and physical design of a data warehouse

Utilisation des vues matérialisées, des index et de la fragmentation dans la conception logique et physique d'un entrepôt de données

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager