Optimisation Itérative De Biblioth`Eques De Calculs Par

Département d’informatique Ecole´ doctorale ”SoFt” UFR de Sciences Optimisation Itérative de Bibliothèques de Calculs par Division Hiérarchique de Codes Iterative Optimization of Performance Libraries by Hierarchical Division of Codes THESE` présentée et soutenue publiquement le 14 septembre 2007 pour l’obtention du Doctorat de l’universitéde Versailles Saint-Quentin (spécialitéinformatique) par Sébastien Donadio Composition du jury Directeur : William Jalby Président : Albert Cohen Rapporteurs : Jean-Fran¸cois Collard Boris Sabanin Examinateurs : Denis Barthou David Padua Michel Guillemet Mis en page avec la classe thloria. Remerciements Ces trois ans de thèse sur l’optimisation de code pour le calcul scientifique m’ont permis de rencontrer de nombreuses personnes talentueuses. Ce travail a pu être menégrâce au financement de la sociétéBULL, de l’Association Nationale de la Recherche Technique, du laboratoire ITACA et du Commissariat àl’Energie´ Atomique Département des Applications Militaires. Je tiens àremercier particulièrement mon directeur de thèse Monsieur William Jalby qui par son investissement et sa motivation m’a permis d’acquérir une très grande rigueur dans mon travail. Sa disponibilité, son engagement, son aide ne me feront jamais oublier la chance que j’ai eu àtravailler avec lui. Je voudrais également exprimer toute ma reconnaissance àmon encadrant de thèse Monsieur Denis Barthou qui a su me diriger tout au long de ce travail. Son travail et ses explications m’ont beaucoup appris sur ce métier de chercheur. Il en est de même pour Monsieur Albert Cohen qui m’a co-encadrédurant cette thèse. Personne avec qui j’ai eu plaisir àtravailler et qui a su me montrer par son extrême motivation des domaines passionnants. Je remercie également dans une autre langue le Professeur David Padua qui m’a accueilli dans son équipe dans l’Universitéd’Illinoisa ` Urbana-Champaign tout comme Monsieur Claude Camozzi qui m’a suivi pendant ces 3 ans avec la sociétéBULL ainsi que Monsieur Michel Guillemet qui a participéàce jury de thèse. Je tenais àremercier particulièrement la sociétéBULL qui, grâce àsa bourse CIFRE, m’a permis de travailler dans de très bonnes conditions tout en assurant un support technique et un accès àune technologie de pointe (machines, compilateurs, systèmes d’exploitation). Je remercie également le travail de mes deux rapporteurs Messieurs Jean-Fran¸cois Collard et Boris Sabanin qui m’ont apportébeaucoup d’informations pendant la fin de l’écriture de ce manuscrit. Je voulais également remercier l’équipe dans laquelle j’ai travailléqui m’a toujours beaucoup apporté. J’ai aiméparticulièrement travailler avec Patrick Carribault qui a étéun très bon collègue durant toutes ces années. Merci également àChristophe Lemuet pour m’avoir laissé l’utilisation d’un très beau programme, àJean-Thomas Acquaviva, Sid Touati, Henri-Pierre Charles, Jean Papadopoulo, Stéphane Zuckerman d’avoir pris la suite avec plusieurs coeurs à l’ouvrage, Marc Perache, Lamia Djoudi, Minhaj Khan, Emmanuel Oseret, Alexandre Duchateau, Julien Jaeger et Souad Koliai. Je remercie également les membres de l’équipe de Cryptographie, Aurélie Bauer, Joana Treger et Sorina Ionica ainsi que d’autres très bon collègues du laboratoire PRiSM comme Xiaohui Xue, Tao Wan, Veronika Peralta ou Amir Djouama. Je remercie tout particulièrement ma famille qui m’a toujours fait confiance ainsi que tous mes amis. i ii Résumé La complexitégrandissante des architectures ne simplifie pas la tâche des compilateurs à générer du code performant et ceci en dépit de nouvelles phases d’optimisation. Les générateurs de bibliothèques comme ATLAS, FFTW et SPIRAL ont réussi à intégrer cette difficultépar l’utilisation de recherche itérative. Cette dernière génère différentes versions de programmes et sélectionne la meilleure d’entre elles. Cette thèse explore une solution automatique pour adap- ter les applications de calculs intensifs àl’architecture complexe des machines. En reprenant des optimisations déjàconnues, nous montrerons qu’une approche générative peut être un outil utile àl’implémentation d’une nouvelle approche de compilation hiérarchique pour la généra- tion de code efficace. Cette méthode s’appuiera sur l’utilisation des compilateurs du marché. Contrairement àATLAS, cette approche n’est pas du tout spécifique àun domaine d’application. Elle peut être appliquée sur des structures de boucle assez générales qu’elle divisera en des fragments de code plus simples àoptimiser pour un compilateur. Grâce àces noyaux de codes, nous proposerons une nouvelle approche de génération de bibliothèques pour le calcul haute performance. Cette approche s’appuiera sur la recomposition de ces codes avec un modèle très simplifié, ce qui nous permettra de concurrencer largement certaines bibliothèques du marché et particulièrement celles pour BLAS. Mots-clés: Optimisation, Compilateur, Calcul Haute Performance, Transformation, Généra- tion, Recherche itérative Abstract The increasing complexity of hardware features incorporated in modern processors makes high performance code generation very challenging. Library generators such as ATLAS, FFTW and SPIRAL overcome this issue by empirically searching in the space of possible program versions for the one that performs the best. This thesis explores fully automatic solution to adapt a compute-intensive application to the target architecture. By mimicking complex sequences of transformations useful to optimize real codes, we show that generative programming is a practical tool to implement a new hierarchical compilation approach for the generation of high performance code relying on the use of state-of-the-art compilers. As opposed to ATLAS, this approach is not application-dependant but can be applied to fairly generic loop structures. Our approach relies on the decomposition of the original loop nest into simpler kernels. These kernels are much simpler to optimize and furthermore, using such codes makes the performance trade off problem much simpler to express and to solve. Finally, we propose a new approach for the generation of performance libraries based on this decomposition method. We show that our method generates high-performance libraries, in particular for BLAS. Keywords: Optimization, Compiler, High Performance Computing, Transformation, Genera- tion, Iterative Search Contents List of Figures viii Glossary xi 1 Introduction 1.1 Contexte........................................ 1 1.2 Historique...................................... 1 1.3 Lamémoirecache ................................. 3 1.4 Traductionettransformations. ........ 5 1.5 Les générateurs de code spécifique aux domaines . ............. 8 1.6 Contributions................................... ... 9 1.7 Plan........................................... 10 2 Meta-programming Languages for High-Performance Computing 12 2.1 Motivation ...................................... 12 2.2 Features of a meta-programmation language for high-performance computing . 15 2.3 MetaOCaml, purely generative approach . ......... 20 2.4 PrerequisiteofMetaOCaml . ..... 21 2.5 Generative Strategies for Loop Transformations . ............. 22 2.5.1 PrimitiveTransformations. ..... 22 2.5.2 Composition of Transformations . ..... 25 2.5.3 Generative Implementation of Complex Optimizations ........... 29 2.5.4 SafeMeta-ProgramminginC . 36 2.5.5 Conclusion ................................... 40 2.6 A generation language : X-Language . ....... 42 2.6.1 Macro-languages ............................... 42 2.6.2 X-Languagepragmause . 43 2.6.3 Implementation................................ 46 2.6.4 Experimentalresults . 52 2.6.5 Bibliography .................................. 54 2.7 Conclusion ...................................... 56 v 2.7.1 Comparisonoftwoapproaches . 56 2.7.2 Limitations ................................... 57 3 Loop Optimization using Kernel Decomposition 58 3.1 Introduction.................................... 58 3.2 Why is it important to divide the problem? . ........ 60 3.2.1 X-languageFramework . 60 3.3 Hierarchical decomposition in kernels . ........... 61 3.3.1 LoopTiling................................... 63 3.3.2 LoopTransformations . 64 3.3.3 Data-Layout Optimization . 64 3.3.4 Kernel Micro-optimization and Execution . ........ 65 3.3.5 PuttingKernelstoWork . 67 3.4 Experimentalresults .. .. .. .. .. .. .. .. .. .. .. ..... 67 3.4.1 Implementation................................ 67 3.4.2 ExperimentalEnvironment . 68 3.4.3 Afew1Dkernels................................ 68 3.4.4 KernelsforDGEMM.............................. 69 3.5 Conclusion ...................................... 72 4 Kernel Recomposition 75 4.1 LibraryGenerationScheme . ..... 75 4.1.1 PerformanceModeling . 78 4.2 Recompositionalgorithm . ..... 78 4.2.1 Withonlyonekernel............................. 78 4.2.2 Extension for different kernels . ...... 79 4.3 Code generation from constraint systems . .......... 80 4.4 Experimentalresults .. .. .. .. .. .. .. .. .. .. .. ..... 81 4.4.1 Matrix-vector multiply on Itanium 2 . ...... 82 4.4.2 A real example: dot-product library generation . .......... 83 4.5 Decision tree for DGEMV and DGEMM . 87 4.5.1 Results compared to vendor libraries . ....... 87 4.5.2 LAPACKpotrs................................. 91 4.6 Methodextension................................. 92 4.6.1 Kerneltests................................... 92 4.6.2 Model for an accurate performance

Optimisation Itérative De Biblioth`Eques De Calculs Par

Generalizing Loop-Invariant Code Motion in a Real-World Compiler

Loop Transformations and Parallelization

Foundations of Scientific Research

Compiler Optimizations

Compiler Construction

Study Topics Test 3

Faculty of Engineering, Technology and Management Sciences

Translation Validation of Optimizing Compilers

Denotational Translation Validation

The Need for Large Register Files in Integer Codes

Loop Optimizations

CS6013 - Modern Compilers: Theory and Practise Overview of Different Optimizations