Optimization of Monte Carlo Neutron Transport Simulations with Emerging Architectures Yunsong Wang

Optimization of Monte Carlo Neutron Transport Simulations with Emerging Architectures Yunsong Wang To cite this version: Yunsong Wang. Optimization of Monte Carlo Neutron Transport Simulations with Emerging Archi- tectures. Distributed, Parallel, and Cluster Computing [cs.DC]. Université Paris Saclay (COmUE), 2017. English. NNT : 2017SACLX090. tel-01687913 HAL Id: tel-01687913 https://pastel.archives-ouvertes.fr/tel-01687913 Submitted on 18 Jan 2018 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. NNT : 2017SACLX090 THESE` DE DOCTORAT DE L’UNIVERSITE´ PARIS-SACLAY PREPAR´ E´ A` L’ECOLE´ POLYTECHNIQUE ECOLE´ DOCTORALE No 573 INTERFACES : APPROCHES INTERDISCIPLINAIRES / FONDEMENTS, APPLICATIONS ET INNOVATION Spécialitéde doctorat: Informatique par M. Yunsong Wang Optimization of Monte Carlo Neutron Transport Simulations by Using Emerging Architectures Thèse présentée et soutenue à Gif-sur-Yvette, le 14 décembre 2017 : Composition de jury : M. Marc Verderi Directeur de Recherche, CNRS/IN2P3/LLR Président du jury M. Andrew Siegel Expert Senior, Argonne National Laboratory Rapporteur M. Raymond Namyst Professeur, Universitéde Bordeaux/LABRI Rapporteur M. David Chamont Chargéde Recherche, CNRS/IN2P3/LAL Examinateur M. David Riz Ingénieur,CEA/DAM Examinateur M. Christophe Calvin Directeur de Recherche, CEA/DRF Directeur de thèse M. Fausto Malvagi Expert Senior, CEA/DEN Encadrant M. Emeric Brun Ingénieur,CEA/DEN Encadrant Résumé Les méthodes Monte Carlo (MC) sont largement utiliséesdans le domaine du nucléaire pour résoudreles équationsdu transport neutronique. Ce type de méthode stochastique offre l’avantage de minimiser les approximations mais présente un taux de convergence lent régitpar la loi des grands nombres, ce qui rend les simulations trèscoûteuses en termes de temps de calcul. Auparavant, l’évolution régulièrede la puissance des processeurs permettait d’améliorerles performances du code sans avoir àreconcevoir les algorithmes. De nos jours, avec l’avènement des architectures many-cœurs (Intel MIC) et les accélérateurs matériels,les travaux d’optimisation sont indispensables et sont une préoccupation importante de la communautéMC. Dans ce type de simulation, les calculs les plus coûteuxconcernent le calcul des sections efficaces, qui modélisent l’interaction probabiliste d’un neutron avec les nucléides qu’il rencontre sur sa trajectoire, au niveau microscopique. L’approche conventionnelle consiste àpré-calculer avant la simulation les sections efficaces de chaque type de nucléide,àchaque températureintervenant dans le systèmeàpartir des informations des bibliothèquesde donnéesnucléaires, et rangédans des tables indexéespar l’énergie incidente. Ces donnéessont ensuite chargéesen mémoire.Pendant le calcul, elles sont ensuite récupéréesdans des tables et le caractèrestochastique du transport MC induit des accèsàla mémoirealéatoires pour un coûtde calcul minime correspondant àune interpolation linéaire. Dans ce cas, l’essentiel du temps de calcul se concentre sur des recherches dans ces tables de probabilités,qui sont de tailles trèsvariables en fonction de chaque nucléide. Afin de minimiser les conflits d’accèsmémoire,nous avons étudiéet optimiséune vaste collection d’algorithmes de recherche afin d’accélérerce processus de récupérationde données.Dans un premier temps, nous avons étudiéet proposéplusieurs alternatives à la recherche binaire conventionnelle, telles que la recherche N-aire (variante vectorisée de la recherche binaire) et la recherche linéairevectorisée. Les évaluations montrent qu’une accélérationsignificative peut êtreobtenue par rapport àla recherche binaire conventionnelle àla fois sur CPU classique et architecture many-cœurs. Cependant, la recherche N-aire n’est pas plus performante que la recherche binaire, ce qui indique que les efforts de vectorisation sont pénaliséspar des accèsdisperséset une mauvaise utilisation du cache. La vectorisation de certains des algorithmes s’est montréeefficace sur l’architecture MIC grâceàses unitésvectorielles de 512 bits. Cette amélioration est moins nette sur CPU, oùles registres vectoriels étant deux fois plus petits. Dans la seconde partie, nous avons étudiédes multiples structures de donnéespossibles per- mettant d’optimiser l’accèsaux tableaux des sections efficaces. Ainsi, la grille d’énergie unifiéeest la plus performante dans tous les cas. Ce type de méthode synthètisetous les i ii tableaux en un seul, donc la recherche dans la table n’a besoin d’êtreeffectuéequ’une seule fois pour chaque calcul de section efficace macroscopique. Cascade fractionnaire, un compromis similaire utilisant moins d’espace mémoire,est également implémentée et évaluée. Les méthodes d’accèspar tables de hachage, avec des stratégiesde hachage linéaireset logarithmiques, présente le meilleur compromis entre performance et empreinte mémoire.A partir de ces algorithmes existent, nous avons proposéle N-ary map en utilisant des tampons supplémentaires pour assurer des accèsmémoireefficaces lors du chargement des bordures dans les registres vectoriels. Toutes ces variantes sont évaluées sur les systèmesde multi-cœurs et de many-cœurs. Cependant, ils sont redoutablement inefficaces du fait de la saturation de la mémoireet du manque de vectorisation de ces algorithmes. En d’autres termes, la puissance de calcul des architectures modernes est en grande partie gaspillée.Une optimisation supplémentaire comme la réductionde la mémoires’avèretrèsimportante car elle amélioreen grande partie les performances in- formatiques. Un autre problèmemajeur de ces méthodes est l’empreinte mémoiretrès importante qu’elles induisent quand un grand nombre de températuressont àconsidérer comme par exemple dans le cadre d’un couplage àla thermo-hydraulique. En effet, les sections efficaces àune températurepour les quatre cent noyaux impliquéesdans une simulation représentent prèsd’un gigaoctet d’espace mémoire,ce qui rend impossible la simulation àplusieurs centaines de températures. Afin de résoudrece problème,nous avons étudiéune approche radicalement opposée : la reconstruction au vol des sections efficaces. L’idéeest de réaliserle calcul des sections efficaces àpartir des données élémentaires se trouvant dans les bibliothèques de donnéesnucléaires (description des résonances) ainsi que le traitement en température (élargissement Doppler) pendant la simulation, àchaque fois qu’une section efficace est nécessaire.Cet algorithme, trèscalculatoire, repose sur une formulation similaire àcelle utiliséedans le calcul des bibliothèquesstandards de neutronique. Cette approche permet de passer d’un problèmede type “memory-bound” àun problèmede type “compute- bound” : seules quelques variables pour chaque résonancesont nécessairesau lieu de la table conventionnelle. L’espace mémoire est ainsi largement réduit,ainsi que les conflits d’accès. Cette méthode est cependant extrêmement coûteuseen temps de calcul. Aprèsune séried’optimisations, les résultatsmontrent que le noyau de reconstruction bénéficiede la vectorisation et peut atteindre 1,806 GFLOPS (en simple précision)sur un Knights Landing 7250, ce qui représente 67% de la puissance crête. Cela permet d’envisager des simulations àplusieurs centaines de températures,ce qui est impossible avec une approche classique. Mêmesi ces efforts d’optimisation améliorent significativement la performance, ce calcul iii àla voléereste encore beaucoup plus lent que les méthodes de recherche convention- nelles. Les travaux futurs devront donc se concentrer sur les optimisations algorith- miques comme des méthodes de fenêtragede multipole. Si ce travail s’est concentrésur les architectures many-cœurs, les implémentations sur accélérateurgraphique (GPGPU) méritent d’êtreétudiéespour espéreratteindre des performances plus élevées. D’autre part, la prise en compte de l’efficacitéénergétiquedevient cruciale pour évaluer les algorithmes sur les architectures modernes. Une solution de compromis entre la performance maximale et la consommation d’énergieest désormaisnécessaires.Ainsi les algorithmes proposésdevront êtreréexaminéssous l’angle de la consommation énergétiqueet pas uniquement sur leur performance brute ou leur occupation mémoire. Acknowledgements I would firstly like to thank my thesis director, Christophe Calvin, for the opportunity he has given me as a Ph.D. student, and for his lightning-fast supports every time I was in trouble. I am grateful for his wise guidance and inclusiveness throughout my three year’s study. I acknowledge my advisor, Fausto Malvagi, for his patience with me, and his willingness to share his invaluable insights to the field. I really miss the discussions we had every Friday after lunch in his office. I would also like to thank my advisor, Emeric Brun, for the aids he offered to deal with technical issues. I am grateful to him for remembering my girlfriend’s birthday during countless ssh connections. I thank Fran¸cois-Xavier Hugot for introducing OCaml as well as his skillful codes. I want to express my gratitude to Philippe Thierry of Intel, for always providing us with the latest hardware. I would like to thank David Chamont for his role as my academical advisor. Specifically, I thank Pierre Guérinof EDF R&D for guiding me into the field of HPC and Monte Carlo transport. I thank the director of Maison de la Simulation, Edouard Audit, for accepting me to study at this laboratory.

Load more