240 articles – 18 references  [version française]
Detailed view PhD thesis
Université d'Orléans (2009-12-16), Frédéric LOULERGUE (Dir.)
Attached file list to this document: 
PDF
ALHAJJHASSAN_Mohamad.pdf(1.4 MB)
Parallélisme et équilibrage de charges dans le traitement de la jointure sur des architectures distribuées.
Mohamad Al Hajj Hassan1

L'émergence des applications de bases de données dans les domaines tels que le data warehousing, le data mining et l'aide à la décision qui font généralement appel à de très grands volumes de données rend la parallélisation des algorithmes des jointures nécessaire pour avoir un temps de réponse acceptable. Une accélération linéaire est l'objectif principal des algorithmes parallèles, cependant dans les applications réelles, elle est difficilement atteignable : ceci est dû généralement d'une part aux coûts de communications inhérents aux systèmes multi-processeur et d'autre part au déséquilibre des charges des différents processeurs. En plus, dans un environnement hétérogène multi-utilisateur, la charge des différents processeurs peut varier de manière dynamique et imprévisible. Dans le cadre de cette thèse, nous nous intéressons au traitement de la jointure et de la multi-jointure sur les architectures distribuées hétérogènes, les grilles de calcul et les systèmes de fichiers distribués. Nous avons proposé une variété d'algorithmes, basés sur l'utilisation des histogrammes distribués, pour traiter de manière efficace le déséquilibre des données, tout en garantissant un équilibrage presque parfait de la charge des différents processeurs même dans un environnement hétérogène et multi-utilisateur. Ces algorithmes sont basés sur une approche dynamique de redistribution des données permettant de réduire les coûts de communication à un minimum tout en traitant de manière très efficace le problème de déséquilibre des valeurs de l'attribut de jointure. L'analyse de complexité de nos algorithmes et les résultats expérimentaux obtenus montrent que ces algorithmes possèdent une accélération presque linéaire.
1:  LIFO - Laboratoire d'Informatique Fondamentale d'Orléans
Systèmes de gestion de bases de données parallèles – Jointures parallèles – Multi-jointure – Les Grilles de calcul – Les systèmes de fichiers distribués – Déséquilibre des données – Équilibrage dynamique de charges

Parallelism and load balancing in the treatment of the join on distributed architectures.
The appeal of parallel processing becomes very strong in applications which require ever higher performance and particularly in applications such as: data-warehousing, decision support, On-Line Analytical Processing (OLAP) and more generally DBMS. A linear speed-up is the main objective of parallel algorithms. However, in real applications, it's not obvious to reach this objective due to the high communication cost in parallel and distributed systems and to the possible skew in the charge of different processors. In addition, on heterogeneous multi-user architectures, the load of each processor may highly vary in a dynamic and unpredictable way. In this thesis, we are interested in treating the join and multi-join queries on distributed multi-user heteregeneous systems, grid systems and distributed file systems. We have proposed several algorithms based on using distributed histograms. These algorithms are based on a dynamic data distribution and task allocation which makes them insensitive to data skew and ensure perfect balancing properties during all stages of join computation even on heteregeneous multi-user environment. The complexity analysis of our algorithms and the experimental results show that they have a near-linear speedup.
Parallel Database Management Systems – Parallel joins – Multi-join – Grid systems – Distributed File Systems – Data skew – Dynamic load balancing.