Techniques de gestion des défaillances dans les grilles informatiques tolérantes aux fautes

Ndeye Massata Ndiaye

Résumé

The construction of grid computing is one of the major research on networked computer systems . The main construction of a grid computing is to provide the concepts and system software components suitable to aggregate computing resources ( processors, memory , and also network ) within a grid of data processing for make (eventually) a global IT infrastructure simulations, data processing and industrial process control . This infrastructure can potentially be used in all fields of scientific research, industrial research and operational activities ( new processes and products , instrumentation, etc. . ) , in the evolution of information systems , web and multimedia. The production quality grids assume a mastery of problems of reliability, enhanced security through better access control and better protection against attacks, fault tolerance and failure prevention, all these properties to result in grid infrastructure computer safe operation. In this thesis we propose to conduct research into the problems of automated fault management, the main objective is to hide as much as possible such failures, ultimately making them transparent to applications, so that from the point of view applications, the grid infrastructure operates almost continuously . We have developed a new self- adaptive hierarchical algorithm to ensure fault tolerance in computational grids. This protocol is based on the hierarchical architecture of grid computing. In each cluster, we defined a coordinator called leader, whose role is to coordinate intra-cluster and ensure the role of intermediary between processes belonging to different clusters process. To save the state of inter-cluster process, the adaptive protocol uses pessimistic message logging protocol based on the issuer. Inside the cluster, the protocol used depends on the frequency of messages. From a maximum threshold determined by the density of communications frequency, non-blocking coordinated checkpoint protocol is used. If the number of messages in the cluster is low , messages are saved using the pessimistic message logging protocol.

La construction des grilles informatiques est un des axes de recherche majeurs sur les systèmes informatiques en réseau. L'objectif principal de la construction d'une grille informatique, c'est de fournir les concepts et composant logiciels système adéquats pour agréger les ressources informatiques (processeurs, mémoires, et aussi réseau) au sein d'une grille de traitements informatiques, pour en faire (à terme) une infrastructure informatique globale de simulations, traitement de données ou contrôle de procédés industriels. Cette infrastructure est potentiellement utilisable dans tous les domaines de recherche scientifique, dans la recherche industrielle et les activités opérationnelles (nouveaux procédés et produits, instrumentation, etc.), dans l'évolution des systèmes d'information, du Web et du multimédia. Les grilles de qualité production supposent une maitrise des problèmes de fiabilité, de sécurité renforcé par un meilleur contrôle des accès et une meilleur protection contre les attaques, de tolérance aux défaillances ou de prévention des défaillances, toutes ces propriétés devant conduire à des infrastructure de grille informatique sûres de fonctionnement. Dans cette thèse on propose de poursuivre des recherches sur les problèmes de gestion automatisée des défaillances, l'objectif principal étant de masquer le mieux possible ces défaillances, à la limite les rendre transparents aux applications, de façon à ce que, du point de vue des applications, l'infrastructure de grille fonctionne de façon quasi-continue. Nous avons conçu un nouvel algorithme hiérarchique auto-adaptatif pour assurer la tolérance aux fautes dans les grilles informatiques. Ce protocole s'appuie sur l'architecture hiérarchique des grilles informatiques. Dans chaque cluster, nous avons défini un coordonnateur appelé processus leader, dont le rôle consiste à coordonner les échanges intra-cluster et à assurer le rôle d'intermédiaire entre les processus appartenant à des clusters différents. Pour sauvegarder les états des processus inter-cluster, le protocole adaptatif utilise le mécanisme de journalisation pessimiste basé sur l'émetteur. A l'intérieur du cluster, le protocole exécuté dépend de la fréquence des messages. A partir d'un seuil de fréquence maximale déterminée en fonction de la densité des communications, c'est le protocole de point de reprise coordonné non bloquant qui sera utilisé, tandis que si le nombre de messages dans le cluster est faible, les messages sont sauvegardés avec la journalisation pessimiste.

Technical fault management in grid computing

Techniques de gestion des défaillances dans les grilles informatiques tolérantes aux fautes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager