C. and .. Processeur,

B. , R. , R. Gupta, and M. L. Soffa, «Load-reuse analysis : Design and evaluation», SIGPLAN Not, vol.34, pp.64-76, 1999.

G. , Other Built-in Functions Provided by GCC», p.75, 2017.

J. , A. , and C. Lin, «Linearizing irregular memory accesses for improved correlated prefetching», dans Proceedings of the 46th Annual IEEE/ACM International Symposium on Microarchitecture, MICRO-46, pp.247-259, 2013.

M. , T. C. , M. S. Lam, and A. Gupta, «Design and evaluation of a compiler algorithm for prefetching», SIGPLAN Not, vol.27, pp.62-73, 1992.

R. H. Saavedra, W. Mao, and K. Hwang, «Performance and optimization of data prefetching strategies in scalable multiprocessors», J. Parallel Distrib. Comput, vol.22, pp.427-448, 1994.

Y. , A. , B. Thwaites, H. Esmaeilzadeh, G. Pekhimenko et al., «Mitigating the memory bottleneck with approximate load value prediction», IEEE Design & Test, vol.33, issue.1, pp.32-42, 2016.

Y. U. , X. , C. J. Hughes, N. Satish, and S. D. , «Imp : Indirect memory prefetcher», dans Proceedings of the 48th International Symposium on Microarchitecture, MICRO-48, pp.178-190, 2015.

C. and .. Processeur,

S. , S. Et, and R. L. , «Non-intrusive dynamic profiler for multicore embedded systems», dans 2017 22nd Asia and South Pacific Design Automation Conference (ASPDAC), pp.500-505, 2017.

, Chapitre 6

A. .. , 108 6.1.2 Méthodologie expérimentale et cas simple du tri à bulles, Expérimentation Sommaire 6.1 Méthodologie expérimentale sur plateforme ARM Cortex

-. .. Méthodologie-sur-plateforme-arm-cortex, 121 6.2.2 Evaluation durée simulée (cycles) et durée de la simulation (Wallclock, en minutes :secondes)

. , Évaluation de la pertinence d'un gel

. , Réduction des cycles de gel identifiés et résultats

.. .. Conclusion-partielle,

. .. Références,

A. , J. M. , L. M. Berc, J. Dean, S. Ghemawat et al., «Continuous profiling : Where have all the cycles gone ?, ACM Trans. Comput. Syst, vol.15, pp.357-390, 1997.

A. and L. , «Arm soc designer», 2017.

, Août, p.108, 2017.

A. , «Options that control optimization», p.116, 2017.

L. , C. , A. Ligtenberg, and M. George-s, «Practical fast 1-d dct algorithms with 11 multiplications», International Conference on Acoustics, Speech, and Signal, pp.988-991, 1989.

P. , , 2017.

S. , A. , G. Dasika, M. Samadi, and S. M. , «Apogee : Adaptive prefetching on gpus for energy efficiency», dans Proceedings of the 22Nd International Conference on Parallel Architectures and Compilation Techniques, PACT '13, pp.73-82, 2013.

. .. Conclusion, 2.2 Evaluation de l'impact du pré-chargement de données sur la consommation énergétique

. .. , Modèles encore plus amont : TLM-timed (TLM timés), p.139

. .. Références, CONCLUSION GÉNÉRALE ET PERSPECTIVES seur) qui permet d'identifier automatiquement les instructions du programme qui contribuent au rallongement du temps global d'exécution de celui-ci parce qu'elles ont été gelées ; menant à la correction par insertion manuelle de pré-chargements dans le programme source. Les phases détection et mesures automatiques, et insertion manuelle, peuvent être itérées par étape (instructions à fort gels en premier), pour une amélioration incrémentale avec vérification de la performance

, Cette seconde approche s'appuie sur l'analyse de deux traces : la trace précise au niveau du cycle des différentes transactions sur le point d'entrée à l'interconnexion, pour les transactions transférées par le dernier niveau de cache (LLC) en direction du contrôleur mémoire ; et la trace d'exécution, composée à chaque cycle des valeurs successives du Program Counter-PC, qui fournissent les adresses des instructions se trouvant à l

, Et pour chacune de ces instructions identifiées, la durée du gel c'est-à-dire la contribution en cycles de chacune de ces instructions au rallongement du temps global d'exécution du programme. Ceci apporte une aide au développeur de programme embarqué : (a) dans la connaissance de la possibilité ou pas, de continuer à chercher à gagner des cycles pour une exécution plus rapide de son programme, (b) sur le choix des gels du processeur les plus pertinents dont le traitement apportera rapidement (gels les plus influents en premier) une réduction de la durée d'exécution du programme. Cette approche fait des hypothèses réalistes pour sa mise en oeuvre, La méthodologie permet d'identifier précisément les instructions responsables des cycles de gel du processeur dus à l'absence de données en mémoire cache

, Nous avons ensuite comparé, pour chacun des programmes, le gain potentiel maximal au gain réalisé par l'unité matérielle de pré-chargement de données disponible dans le processeur. Nous avons observé que certains programmes polybench/C sont déjà suffisamment optimisés (gain maximal ? 0.7%) mais qu'il est encore possible d'en optimiser certains autres (ceux qui présentent un gain potentiel maximal ? 2%, En fixant la latence du contrôleur mémoire à 164 cycles, nous avons mesuré avec notre méthode

M. Dans-notre, les données à lire par les instructions responsables du gel du processeur sont alors anticipées par pré-chargement en mémoire cache, Ces donnés sont pré