De la localité logicielle à la localité matérielle sur les architectures à mémoire partagée, hétérogène et non-uniforme

Résumé : La hiérarchie mémoire des serveurs de calcul est de plus en plus complexe. Les machines disposent de plusieurs niveaux de caches plus ou moins partagés et d’une mémoire distribuée. Plus récemment le paysage du Calcul Haute Performance (CHP) a vu apparaître des mémoires adressables embarquées dans le processeur ainsi que de nouvelles mémoires non-volatiles (périphérique mémoire sur le bus d’entrées sorties et prochainement de la mémoire non-volatile directement sur le bus mémoire). Cette hiérarchie est nécessaire pour espérer obtenir de bonnes performances de calcul, au prix d’une gestion minutieuse du placement des données et des tâches de calcul. Là où la gestion des caches était entièrement matérielle et masquée au développeur, le choix du placement des données dans telle ou telle zone de mémoire, plus ou moins rapide, volatile ou non, volumineuse ou non, est maintenant paramétrable logiciellement. Cette nouvelle flexibilité donne une grande liberté aux développeurs mais elle complexifie surtout leur travail quand il s’agit de choisir les stratégies d’allocation, de communication, de placement, etc. En effet, les caractéristiques des nombreux niveaux de hiérarchie impliqués varient significativement en vitesse, taille et fonctionnalités. Dans cette thèse, co-encadrée entre Atos Bull Technologies et Inria Bordeaux– Sud-Ouest, nous détaillons la structure des plates-formes contemporaines et caractérisons la performance des accès à la mémoire selon plusieurs scénarios de localité des tâches de calcul et des données accédées. Nous expliquons comment la sémantique du langage de programmation impacte la localité des données dans la machine et donc la performance des applications. En collaboration avec le laboratoire INESC-ID de Lisbonne, nous proposons une extension au célèbre modèle Roofline pour exposer de manière intelligible les compromis de performance et de localité aux développeurs d’applications. Nous proposons par ailleurs un outil de synthèse de métriques de localité mettant en lien les évènements de performance de l’application et de la machine avec la topologie de cette dernière. Enfin, nous proposons une approche statistique pour sélectionner automatiquement la meilleure politique de placement des tâches de calcul sur les coeurs de la machine et des données sur les mémoires.
Type de document :
Thèse
Calcul parallèle, distribué et partagé [cs.DC]. Université de Bordeaux, 2018. Français. 〈NNT : 2018BORD0201〉
Liste complète des métadonnées

https://tel.archives-ouvertes.fr/tel-01917364
Contributeur : Abes Star <>
Soumis le : mercredi 9 janvier 2019 - 11:29:07
Dernière modification le : jeudi 24 janvier 2019 - 01:12:49

Fichier

DENOYELLE_NICOLAS_2018.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01917364, version 2

Citation

Nicolas Denoyelle. De la localité logicielle à la localité matérielle sur les architectures à mémoire partagée, hétérogène et non-uniforme. Calcul parallèle, distribué et partagé [cs.DC]. Université de Bordeaux, 2018. Français. 〈NNT : 2018BORD0201〉. 〈tel-01917364v2〉

Partager

Métriques

Consultations de la notice

120

Téléchargements de fichiers

30