Abstract : With architectural and technologies advances, the way to assure electronic structures dependability becomes more and more complex. This problem is particularly crucial for structures composed of a large number of components and realized with aggressive technologies. Integrated parallel computers are such structures. They used to give high processing rate in a low volume, with a high confidence that can be put in the result. In this thesis, we propose a scheme to improve the reliability of parallel computers, based on original test and fault-tolerance schemes. In our case, the test scheme uses periodic and concurrent methods in order to permanently know the structure state. If some faulty component is found, the fault-tolerance scheme is then performed by two physical levels of reconfiguration of the structure network. We show, in the conclusion of the thesis, that with minimal and scalable hardware overhead, reliability comparable to the one of a component of the non fault-tolerant structure can be achieved.
Résumé : La sûreté de fonctionnement des systèmes électroniques est un sujet de plus en plus complexe en raison des avancées technologiques et architecturales. Les structures comportant à la fois un grand nombre de composants et conçues à partir de technologies agressives sont parmi celles dont les problèmes de fiabilité doivent être considérés avec la plus grande attention. Parmi ces structures, les calculateurs parallèles intégrés, puissants accélérateurs de calcul dans un volume réduit, se doivent d'assurer un niveau de fiabilité élevé à ses utilisateurs. Dans cette thèse, nous proposons une méthode d'amélioration de la fiabilité dédiée à ces calculateurs fondée sur des techniques originales de test et de tolérance aux fautes. La méthode de tolérance aux fautes consiste en une reconfiguration du réseau sur 2 niveaux de hiérarchie physique, fondée sur la connaissance permanente de l'état de la structure obtenue par un test périodique ou concurrent. Nous montrons alors comment il est possible, au moyen d'un ajout matériel minimisé et modulaire, d'atteindre des taux de fiabilité équivalents à ceux d'un des composants de la structure d'origine.