Déploiement et contrôle d'applications parallèles sur grappes de grandes tailles - TEL - Thèses en ligne Access content directly
Theses Year : 2003

Déploiement et contrôle d'applications parallèles sur grappes de grandes tailles

Abstract

The increasing size of cluster of workstations sets down the scalability problem of applications running on these platforms. This concerns both numerical parallel applications and exploitation tools (administration, monitoring...). In this thesis work, we study the deployment of parallel applications on large clusters, that can be extended to grids. The deployment includes on one hand the launch of the parallel program on all nodes and on the other hand the setting up of a communication layer. Efficiency is obtained thanks to the overlay of all independent steps of the deployment. This work shows this problem as equivalent as the well known problem of the single message broadcast. Performance gap between the cost of a network communication and this of a remote execution call enable us to use a work stealing algorithm to realize a near-optimal schedule of remote execution calls. The good properties and performance figures of this tool, Taktuk, are demonstrated by its use in several projects like: KaTools (included and used by the Clic Mandrake Cluster Linux distribution), OAR (Job manager) and Inuktitut (Communication layer of the environment ATHAPASCAN).
La taille grandissante des grappes de calcul pose le problème du "passage à l'échelle" des applications qui s'exécutent sur ces plates-formes. Ceci concerne les applications de calculs scientifiques et les applications permettant d'exploiter ces plates-formes (administration, surveillance de charge, etc...). Dans ce travail de thèse nous nous sommes intéressés au déploiement d'une application parallèle sur une grappe de grande taille. L'objectif de cette étude était de fournir une méthode de déploiement efficace sur des grappes composées de milliers de noeuds et pouvant être facilement étendue aux grilles de calcul. Le déploiement inclut d'une part le lancement du programme parallèle sur tous les noeuds et d'autre part la mise en oeuvre d'un environnement de communication entre ces instances de programme. L'efficacité est obtenue par la parallélisation systématique des différentes initiations d'exécution distante. Ces travaux montrent que le problème de la diffusion optimale d'une requête d'exécution est similaire au problème largement étudié de la diffusion d'un message sur un réseau complètement maillé. Nous proposons une bibliothèque, "Taktuk", permettant de réaliser un ordonnancement dynamique (par vol de travail) des communications (appels d'exécution distante) de manière générique. L'utilisabilité et le bon fonctionnement de l'outil que nous proposons sont validés par son utilisation et sa diffusion dans plusieurs projets~: KaTools (inclus et utilisé par la distribution Linux Mandrake Clic), OAR (gestionnaire de travaux pour grappes) et Inuktitut (bibliothèque de communication d'ATHAPASCAN).
Fichier principal
Vignette du fichier
tel-000046101.pdf (857.81 Ko) Télécharger le fichier
tel-00004610.pdf (1017.79 Ko) Télécharger le fichier
Format : Other

Dates and versions

tel-00004610 , version 1 (10-02-2004)

Identifiers

  • HAL Id : tel-00004610 , version 1

Cite

Cyrille Martin. Déploiement et contrôle d'applications parallèles sur grappes de grandes tailles. Réseaux et télécommunications [cs.NI]. Institut National Polytechnique de Grenoble - INPG, 2003. Français. ⟨NNT : ⟩. ⟨tel-00004610⟩
164 View
647 Download

Share

Gmail Facebook X LinkedIn More