Automatic Parallelization for Heterogeneous Embedded Systems Rokiatou Diarra

Automatic Parallelization for Heterogeneous Embedded Systems Rokiatou Diarra To cite this version: Rokiatou Diarra. Automatic Parallelization for Heterogeneous Embedded Systems. Distributed, Par- allel, and Cluster Computing [cs.DC]. Université Paris Saclay (COmUE), 2019. English. NNT : 2019SACLS485. tel-02528823 HAL Id: tel-02528823 https://tel.archives-ouvertes.fr/tel-02528823 Submitted on 2 Apr 2020 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Automatic Parallelization for Heterogeneous Embedded Systems These` de doctorat de l’Universite´ Paris-Saclay prepar´ ee´ a` l’Universite´ Paris-Sud Ecole doctorale n◦580 Sciences et Technologies de l’Information et de la Communication (STIC) Specialit´ e´ de doctorat : Traitement du Signal et des Images NNT : 2019SACLS485 These` present´ ee´ et soutenue a` Digiteo Labs, Gif-sur-Yvette, le 25/11/2019, par MME ROKIATOU DIARRA Composition du Jury : Dominique HOUZET Professeur, Universite´ Grenoble Alpes (GIPSA-Lab) President´ Mohamed SHAWKY Professeur, Universite´ de Technologie de Compiegne` (COSTECH) Rapporteur Bertrand GRANADO Professeur, Sorbonne Universite´ (LIP6) Rapporteur Michele` GOUIFFES Maˆıtre de Conferences,´ Universite´ Paris-Sud (LIMSI - CNRS) Examinateur Marc DURANTON Chercheur, Commissariat a` l’energie´ atomique (LIST) Invite´ Alain MERIGOT´ Professeur, Universite´ Paris-Sud (SATIE) Directeur de these` Bastien VINCKE Maˆıtre de Conferences,´ Universite´ Paris-Sud (SATIE) Co-encadrant de these` ` ese de doctorat Th Abstract Recent years have seen an increase of heterogeneous architectures combining multi-core CPUs with accelerators such as GPU, FPGA and Intel Xeon Phi. GPU can achieve significant performance for certain categories of application. Nevertheless, achieving this performance with low- level APIs (e.g. CUDA, OpenCL) requires to rewrite the sequential code, to have a good knowledge of GPU architecture, and to apply complex optimizations that are sometimes not portable. On the other hand, directive-based programming models (e.g. OpenACC, OpenMP) offer a high-level abstraction of the underlying hardware, thus simplifying the code maintenance and improving productivity. They allow users to accelerate their sequential codes on GPU by simply inserting directives. OpenACC/OpenMP compilers have the daunting task of applying the necessary optimizations from the user-provided directives and generating efficient codes that take advantage of the GPU architecture. Although the OpenACC / OpenMP compilers are mature and able to apply some optimizations automatically, the generated code may not achieve the expected speedup as the compilers do not have full view of the whole application. Thus, there is generally a significant performance gap between the codes accelerated with OpenACC/OpenMP and those hand-optimized with CUDA/OpenCL. To help programmers for speeding up efficiently their legacy sequential codes on GPU with directive- based models and broaden OpenMP/OpenACC impact in both academia and industry, several research issues are discussed in this dissertation. We investigated OpenACC and OpenMP programming models and proposed an effective application parallelization methodology with directive- based programming approaches. Our application porting experience revealed that it is insufficient to simply insert OpenMP/OpenACC offloading directives to inform the compiler that a particular code region must be compiled for GPU execution. It is highly essential to combine offloading directives with loop parallelization constructs. Although current compilers are mature and perform several optimizations, the user may provide them more information through loop parallelization constructs clauses in order to get an optimized code. We have also revealed the challenge of choosing good loop schedules. The default loop schedule chosen by the compiler may not pro- duce the best performance, so the user has to manually try different loop schedules to improve the performance. We demonstrate that OpenMP and OpenACC programming models can achieve best performance with lesser programming effort, but OpenMP/OpenACC compilers quickly reach their limit when the offloaded region code is computed/memory bound and contain several nested loops. In such cases, low-level languages may be used. We also discuss pointers aliasing problem in GPU codes and propose two static analysis tools that perform automatically at source level type qualifier insertion and scalar promotion to solve aliasing issues. i Ph.D Report ii Rokiatou DIARRA Résumé L’utilisation d’architectures hétérogènes, combinant des processeurs multicœurs avec des accéléra- teurs tels que les GPU, FPGA et Intel Xeon Phi, a augmenté ces dernières années. Les GPUs peuvent atteindre des performances significatives pour certaines catégories d’applications. Néan- moins, pour atteindre ces performances avec des API de bas niveau comme CUDA et OpenCL, il est nécessaire de réécrire le code séquentiel, de bien connaître l’architecture des GPUs et d’appliquer des optimisations complexes, parfois non portables. D’autre part, les modèles de programmation basés sur des directives (par exemple, OpenACC, OpenMP) offrent une abstraction de haut niveau du matériel sous-jacent, simplifiant ainsi la maintenance du code et améliorant la productivité. Ils permettent aux utilisateurs d’accélérer leurs codes séquentiels sur les GPUs en insérant simplement des directives. Les compilateurs d’OpenACC/OpenMP ont la lourde tâche d’appliquer les optimisations nécessaires à partir des directives fournies par l’utilisateur et de générer des codes exploitant efficacement l’architecture sous-djacente. Bien que les compilateurs d’OpenACC/OpenMP soient matures et puissent appliquer certaines optimisations automatiquement, le code généré peut ne pas atteindre l’accélération prévue, car les compilateurs ne disposent pas d’une vue complète de l’ensemble de l’application. Ainsi, il existe généralement un écart de performance important entre les codes accélérés avec OpenACC/OpenMP et ceux optimisés manuellement avec CUD- A/OpenCL. Afin d’aider les programmeurs à accélérer efficacement leurs codes séquentiels sur GPU avec les modèles basés sur des directives et à élargir l’impact d’OpenMP/OpenACC dans le monde uni- versitaire et industrielle, cette thèse aborde plusieurs problématiques de recherche. Nous avons étudié les modèles de programmation OpenACC et OpenMP et proposé une méthodologie efficace de parallélisation d’applications avec les approches de programmation basées sur des directives. Notre expérience de portage d’applications a révélé qu’il était insuffisant d’insérer simplement des directives de déchargement OpenMP/OpenACC pour informer le compilateur qu’une région de code particulière devait être compilée pour être exécutéé sur la GPU. Il est essentiel de combiner les directives de déchargement avec celles de parallélisation de boucle. Bien que les compilateurs actuels soient matures et effectuent plusieurs optimisations, l’utilisateur peut leur fournir davantage d’informations par le biais des clauses des directives de parallélisation de boucle afin d’obtenir un code mieux optimisé. Nous avons également révélé le défi consistant à choisir le bon nombre de threads devant exécuter une boucle. Le nombre de threads choisi par défaut par le compilateur peut ne pas produire les meilleures performances. L’utilisateur doit donc essayer manuellement différents nombres de threads pour améliorer les performances. Nous démontrons que les modèles de programmation OpenMP et OpenACC peuvent atteindre de meilleures performances avec un iii effort de programmation moindre, mais les compilateurs OpenMP/OpenACC atteignent rapide- ment leur limite lorsque le code de région déchargée a une forte intensité arithmétique, nécessite un nombre très élevé d’accès à la mémoire globale et contient plusieurs boucles imbriquées. Dans de tels cas, des langages de bas niveau doivent être utilisés. Nous discutons également du problème d’alias des pointeurs dans les codes GPU et proposons deux outils d’analyse statiques qui permettent d’insérer automatiquement les qualificateurs de type et le remplacement par scalaire dans le code source. Ph.D Report iv Rokiatou DIARRA Dedication To my late father Oumar DIARRA To my dear mother Korotimi DIARRA To my dear brothers and sisters To Minkoro FOMBA, my best half This work would not have been possible without your love and your unconditional support. v Ph.D Report vi Rokiatou DIARRA Acknowledgements I thank God for giving me the courage, the patience, and the strength to face all the difficulties and obstacles I have encountered in the last three years. The successful completion of this thesis would not have been possible without the guidance, in- fallible support and encouragement of many people. I take this opportunity to express my sincere gratitude and appreciation to all those who contributed to the success of my thesis. I am deeply indebted to both my advisor Alain MÉRIGOT and my co-supervisor Bastien VINCKE for their persistent encouragement and motivation,

Automatic Parallelization for Heterogeneous Embedded Systems Rokiatou Diarra

Other Apis What’S Wrong with Openmp?

Opencl on Shared Memory Multicore Cpus

Heterogeneous Task Scheduling for Accelerated Openmp

Using the GNU Compiler Collection (GCC)

AMD Accelerated Parallel Processing Opencl Programming Guide

NVIDIA CUDA on IBM POWER8: Technical Overview, Software Installation, and Application Development

Memory Tagging and How It Improves C/C++ Memory Safety Kostya Serebryany, Evgenii Stepanov, Aleksey Shlyapnikov, Vlad Tsyrklevich, Dmitry Vyukov Google February 2018

Parallel Programming

Openmp API 5.1 Specification

Statically Detecting Likely Buffer Overflow Vulnerabilities

Pattern Matching

Pathscale ENZO GTC12 S0631 – Programming Heterogeneous Many-Cores Using Directives C