Abstractions for Programming Graphics Processors in High-Level Programming Languages

Abstracties voor het programmeren van graﬁsche processoren in hoogniveau-programmeertalen Abstractions for Programming Graphics Processors in High-Level Programming Languages Tim Besard Promotor: prof. dr. ir. B. De Sutter Proefschrift ingediend tot het behalen van de graad van Doctor in de ingenieurswetenschappen: computerwetenschappen Vakgroep Elektronica en Informatiesystemen Voorzitter: prof. dr. ir. K. De Bosschere Faculteit Ingenieurswetenschappen en Architectuur Academiejaar 2018 - 2019 ISBN 978-94-6355-244-8 NUR 980 Wettelijk depot: D/2019/10.500/52 Examination Committee Prof. Filip De Turck, chair Department of Information Technology Faculty of Engineering and Architecture Ghent University Prof. Koen De Bosschere, secretary Department of Electronics and Information Systems Faculty of Engineering and Architecture Ghent University Prof. Bjorn De Sutter, supervisor Department of Electronics and Information Systems Faculty of Engineering and Architecture Ghent University Prof. Jutho Haegeman Department of Physics and Astronomy Faculty of Sciences Ghent University Prof. Jan Lemeire Department of Electronics and Informatics Faculty of Engineering Vrije Universiteit Brussel Prof. Christophe Dubach School of Informatics College of Science & Engineering The University of Edinburgh Prof. Alan Edelman Computer Science & Artificial Intelligence Laboratory Department of Electrical Engineering and Computer Science Massachusetts Institute of Technology ii Dankwoord Ik wist eigenlijk niet waar ik aan begon, toen ik in 2012 in de cata- comben van het Technicum op gesprek ging over een doctoraat. Of ik al eens met LLVM gewerkt had. Ondertussen zijn we vele jaren verder, werk ik op een bureau waar er wel daglicht is, en is het eindpunt van deze studie zowaar in zicht. Dat mag natuurlijk wel, zo vertelt men mij, na 7 jaar. Die periode was doorspekt met de nodige doodlopende on- derzoeksrichtingen en dubieuze projecten, maar werd gelukkig afgerond met het successvolle onderzoek dat ik nu in dit boek kan presenteren. Vooreerst wil ik mijn promotor, Bjorn De Sutter, bedanken om dit onderzoek mogelijk te maken. Zijn inzichten bleken essentieel bij het verwerven van de nodige IWT en FWO beurzen. Ook bij het schrijven van wetenschappelijke artikels was hij steeds van de partij om te waken over de kwaliteit, en densiteit, van het afgeleverde werk. Ook de andere leden van de examencommissie wil ik van harte bedanken, om de tijd te nemen om dit proefschrift te lezen en er kritische vragen over te formuleren. I would like to thank prof. Christophe Dubach for his critical but constructive view on my work, and for taking the time to travel to Ghent and be part of my examination committee. A very special word of thanks goes out to prof. Alan Edelman and Viral Shah, for inviting me to MIT and hosting me for 5 months. The time I spent there reinvigorated my research, and has made it possible for me to graduate today. Valentin, Jarrett, Andreas, Jiahao: you guys are great, and I will fondly remember my time at the Julia Lab. Ik wil natuurlijk ook alle collega’s in Gent bedanken, en in het bijzon- der mijn bureaugenoten van de afgelopen jaren: Bart, Bert, Christophe, Jens, Jonas, Panagiotis, Pieter, Ronald, Sander, en Stijn; jullie waren er altijd om de onderzoekseilanden te overbruggen en een aangename werksfeer te creëeren. Bart, als schaduwpromotor was jij er voor alle praktische zaken, of gewoon voor wat weetjes over de universiteit. Ten slotte wil ik mijn familie en vrienden bedanken voor het leven buiten dit onderzoek. Jullie waren er altijd voor de nodige reality check, in een wereld waar IT niet altijd zo belangrijk is. Liesa, zonder jou zou dit alles veel minder zin hebben. Bedankt om mee te gaan in dit verhaal en het avontuur dat ons nog te wachten staat. Tim Besard Gent, 1 juni 2019 iv Samenvatting Softwareontwikkeling is lange tijd gestoeld geweest op hardware die exponentieel krachtiger werd, waardoor ook de complexiteit van applicaties enorm is kunnen toenemen. Deze periode is echter voorbij: traditio- nele CPUs (Central Processing Units) verdubbelen niet langer elke paar jaar in snelheid, waardoor rekenintensieve applicaties steeds frequenter gebruik moeten maken van hardwareversnellers zoals GPUs (Graphics Processing Units). Tezelfdertijd blijft ook de vraag naar steeds krachtiger en complexere applicaties bestaan. Aan deze behoefte is moeilijk te voldoen met tra- ditionele programmeertalen, zoals C en C++, die veel expertise eisen van de programmeur. Bijgevolg winnen zogenaamde hoogniveau-talen, zoals Python en MATLAB, snel aan populariteit. Deze programmeertalen werken op een hoog abstractieniveau waar de programmeur kan focussen op applicatielogica zonder aandacht te spenderen aan hoe die applicatie uiteindelijk zal uitgevoerd worden. Het is echter moeilijk om hoogniveau-talen te gebruiken om hardwareversnellers zoals GPUs te programmeren. Vooreerst berust het ont- werp van deze talen vaak op elementen die slecht combineren met externe processoren, zoals interpretatie of dynamische compilatie. Tegelijk worden hardwareversnellers hoofdzakelijk gebruikt om de prestatie te ver- hogen, terwijl hoogniveau-programmeertalen focussen op productiviteit zelfs als dat ten koste gaat van prestatie. Daarom worden hardwareversnellers voornamelijk geprogrammeerd met laagniveau-talen die een goede prestatie garanderen, in combinatie met een hoogniveau-taal om de overige applicatielogica te implementeren. Deze splitsing van een applicatie in twee of meer talen, waarbij de ene dient om prestatiegevoelige code te implementeren en de andere om op productieve wijze de applicatielogica te definiëren, levert veel problemen op. Het gebruik van meerdere talen werpt in essentie een barrière op die zowel hergebruik, abstractie, en optimalisatie van code verhindert, maar ook samenwerking tussen programmeurs bemoeilijkt. vi SAMENVATTING In dit proefschrift reiken we een alternatief aan, waarbij we één enkele hoogniveau-programmeertaal gebruiken voor zowel applicatielogica als GPU-code. Hierbij behouden we de productiviteit van de hoogniveau-taal zonder daarbij in te boeten op de prestatie van code wanneer die uitgevoerd wordt op de hardwareversneller. We bou- wen hiervoor verder op de Julia programmeertaal, een hoogniveau-taal die specifiek ontworpen geweest is voor efficiënte uitvoering opCPUs. Om code geschreven in Julia uit te voeren op een processor zoals een GPU is een nieuwe back end nodig voor de compiler, die broncode omzet naar machinecode voor uitvoering. Traditioneel worden deze al- ternatieve back ends verweven met de bestaande compiler, of wordt er zelfs een geheel aparte implementatie van de programmeertaal voorzien die specifiek is voor een bepaalde processor. Als onderdeel van dit onderzoek definiëren we interfaces tot de hoogniveau-compiler voor het implementeren van dynamische back ends. Hiermee wordt het mogelijk een nieuwe back end te ont- wikkelen zonder die in de bestaande compiler te moeten integreren en daarvoor te moeten voldoen aan eisen op vlak van kwaliteit of licentie. Toch wordt de bestaande compiler hergebruikt waardoor nieuwe back ends snel en efficiënt geïmplementeerd kunnen worden. Tegelijk wordt een parallelle implementatie vermeden, wat de compatibiliteit van broncode met verschillende back ends ten goede komt. We hebben deze interfaces toegevoegd aan de Julia programmeertaal, en de implementatie ervan bijgedragen aan het bijhorende open-source project. De interfaces bieden toegang tot de verschillende IRs (Interme- diate Representations) zoals ze bestaan in de Julia compiler, waaronder IR code van de LLVM (Low Level Virtual Machine) bibliotheek die de compiler gebruikt. Om efficiënt met deze IR te werken hebben wehet pakket LLVM.jl ontwikkeld om toegang te krijgen tot de LLVM API (Application Programming Interface) vanuit Julia. We demonstreren vervolgens het potentieel van deze interfaces aan de hand van een GPU back end voor Julia. Deze back end, beschik- baar als open-source software onder de naam CUDAnative.jl, maakt het mogelijk om Julia code uit te voeren op CUDA (Compute Unified Device Architecture) GPUs. De prestatie van deze hoogniveau-code is vergelijk- baar met equivalente laagniveau-code geschreven in CUDA C, wat we aantonen aan de hand van de Rodinia benchmark suite voor heterogene applicaties. Het programmeren van hoogniveau-code in Julia is echter veel productiever, minder foutgevoelig, en vereist geen bijkomende expertise op vlak van andere, laagniveau-programmeertalen. SAMENVATTING vii Julia biedt als hoogniveau-programmeertaal tevens taalconstructies die het mogelijk maken om krachtige abstracties te definiëren. Automa- tische specialisatie van generieke code kan bijvoorbeeld gebruikt worden voor hogere-orde reeksabstracties. Hiermee kunnen abstracte operaties op reeksen gescheiden worden van hun concrete implementatie die be- paalt in welk geheugen de elementen zich bevinden, hoe de operatie uitgevoerd wordt, etc. Dit resulteert in compacte en leesbare code, waarbij de hoogniveau-programmeur geen kennis moet hebben van hoe de on- derliggende datastructuur geïmplementeerd is. Aan de hand van de CUDAnative.jl GPU back end hebben we onderzoek gevoerd naar dergelijke reeksabstracties voor GPUs zonder de typische barrière tussen hoogniveau-applicatiecode en laagniveau- infrastructuur. We hebben dit geïmplementeerd in het open-source CuArrays.jl pakket, en hebben ermee aangetoond dat deze abstracties krachtig genoeg zijn om realistische applicaties te implementeren. De applicaties

Abstractions for Programming Graphics Processors in High-Level Programming Languages

R from a Programmer's Perspective Accompanying Manual for an R Course Held by M

Parallel Functional Programming with APL

Programming Language

RAL-TR-1998-060 Co-Array Fortran for Parallel Programming

Programming the Capabilities of the PC Have Changed Greatly Since the Introduction of Electronic Computers

Tangent: Automatic Differentiation Using Source-Code Transformation for Dynamically Typed Array Programming

Fault Tolerance and Re-Training Analysis on Neural Networks

In-Datacenter Performance Analysis of a Tensor Processing Unit

P1360R0: Towards Machine Learning for C++: Study Group 19

Design and Implementation of an Array Language

AI Chips: What They Are and Why They Matter

Shinjae Yoo Computational Science Initiative Outline