Use of Shared Memory in the Context of Embedded Multi-Core Processors: Exploration of the Technology and Its Limits

ALMA MATER STUDIORUM – UNIVERSITÀ DI BOLOGNA FACOLTÀ DI INGEGNERIA DOTTORATO DI RICERCA IN INGEGNERIA ELETTRONICA, TELECOMUNICAZIONI E TECNOLOGIE DELL’INFORMAZIONE - CICLO XXV SETTORE CONCORSUALE DI AFFERENZA: 09/E3 SETTORE SCIENTIFICO DISCIPLINARE: ING-INF/01 USE OF SHARED MEMORY IN THE CONTEXT OF EMBEDDED MULTI-CORE PROCESSORS: EXPLORATION OF THE TECHNOLOGY AND ITS LIMITS PRESENTATA DA: PAOLO BURGIO COORDINATORE DOTTORATO RELATORI ALESSANDRO VANELLI-CORALLI CHIAR.MO PROF. LUCA BENINI CHIAR.MO PROF. PHILIPPE COUSSY ESAME FINALE ANNO 2013/2014 Use of shared memory in the context of embedded multi-core processor: exploration of the technology and its limits Paolo Burgio Department of Electrical, Electronic and Information Engineering “Guglielmo Marconi” Universitádegli Studi di Bologna - Italy and Lab-STICC Universitéde Bretagne-Sud - France A thesis submitted for the degree of PhilosophiæDoctor (PhD) December 2013 ii Abstract Nell’ultimo decennio, i sistemi integrati (embedded systems) hanno sposato le architetture many-core. Questo èstato necessario per continuare a soddisfare la richiesta di performance e di bassi consumi da parte del mercato, in particolare da quando smart- phone e tablet sono entrati nella vita di tutti i giorni. Per utilizzare al meglio questa tecnologia, spesso si assume che lo spazio di memoria disponibile sia totalmente condiviso fra i processori. Ciò èdi grande aiuto sia perché semplifica il lavoro del programmatore, sia durante il design della piattaforma e del runtime stessi. Tuttavia, il paradigma a memoria condivisa ènato sui sistemi symmetric multi-processors (SMP), e portarlo sulle moderne architetture embedded puòessere problematico. Qui, per ragioni di dimensioni e di consumo di potenza, si tende a rimpiazzare le data cache con memorie scratchpad, che vanno gestite esplicitamente dal software, e quindi dal programmatore. La situazione si complica ulteriormente se si considera il fatto che le moderne applicazioni devono essere parallelizzati, prima di poter essere eseguite sulle centinaia/migli- aia di processori disponibili nella piattaforma. Per supportare la programmazione parallela, sono stati proposti diversi linguaggi, orientati a diversi tipi di piattaforme e paradigmi di programmazione. Tipicamente, questi linguaggi lavorano ad un alto livello di astrazione, pertanto abbisognano di un supporto sotto forma di libreria di runtime, che chiaramente ha un costo, un overhead che impatta negativamente sulle performance. Minimizzare questo costo èfondamentale. In questa dissertazione, es- ploro l’applicabilitàdel modello a memoria condivisa alle moderne architetture many- core, con particolare attenzione alla programmabilità. In particolare mi concentreròsu OpenMP, che èlo standard de facto per programmare i sistemi a memoria condivisa. In una prima parte della tesi vengono analizzati i servizi di base (sincronizzazione, allo- cazione della memoria) che si deve fornire a un livello piùbasso dello stack tecnologico, iii per consentire lo sviluppo di codice parallelo su un many-core a memoria condivisa, e in particolare il loro costo, e infine vengono proposte alcune soluzioni per renderli più snelli. In seguito ci si sposta a un livello piùalto d’astrazione, e viene mostrato come un runtime di supporto al programming model OpenMP debba essere implementato in modo da supportare efficientemente piùlivelli di parallelismo, e un paradigma a parallelismo irregolare, a tasking, in un sistema shared-memory. Nella seconda parte della tesi, il focus si sposta su un altro trend per il design dei sistemi integrati, cioè, la possibilitàdi includere acceleratori hardware nella piattaforma, che quindi viene detta eterogenea. Viene introdotto un template per un’architettura eterogenea many-core, dove acceleratori e processori comunicano tramite la memoria condivisa. Fissato lo schema di comunicazione, si puòdefinire uno scheletro per un generico acceleratore (HWPU) che verràspecializzato a seconda dell’applicazione, e si puòdefinire uno scheletro per una piattaforma con sia acceleratori che processori. Una volta che il protocollo di comunicazione e la piattaforma sono definiti, si può sviluppato uno stack software e un insieme di tool per svilupparla, e per consentire alle applicazioni di sfruttare gli acceleratori hardware. Tutti i dettagli di basso livello, non necessari allo sviluppo dell’applicazione, sono “nascosti” in un runtime, e il programmatore interagisce con esso tramite annotazioni OpenMP. In questa dissertazione vengono presentati due approcci ortogonali: da un lato (top-down), si cerca di semplificare il lavoro del progettista della piattaforma, includendo i vari tool necessari allo sviluppo in un unico toolflow; dall’altro (bottom-up), si forniscono agli sviluppatori di software gli strumenti per sfruttare gli acceleratori hardware presenti nella piattaforma, senza appesantire il proprio codice. iv Complimenti per l’ottimo acquisto v Acknowledgements Premessa: visto che mi son rotto di inglese e francese, i ringraziamenti ve li beccate in italiano (vedi http://translate.google.com). Stavolta, di scrivere un papiro come per la specialistica, non se ne parla neppure. Per due principali motivi: uno, perchél’ho giàfatto (e quindi andiamo in “maniera incrementale” per dirla alla ingegnere), e due perchéalla fine della fiera, c’èsolo una persona senza la quale questi 5 anni, con tutte le cose che son successe, mi sarebbero veramente passati sopra come un rullo compressore: me. Ciononostante, alcune persone mi sono state vicine, magari anche solo per pochissimo, o magari mi hanno semplicemente – e involontariamente – detto la parola giusta al momento giusto: quello che mi serviva. Senza nulla volere alle altre, sto giro sono loro che voglio ringraziare. Paraculatamente, i primi sono Luca, Philippe e Andrea (in ordine – immag- ino – di pubblicazioni). Grazie Luca: come ripetevo sempre, lavorare nella “serie A” (o almeno quella che credo sia la serie A), paga sempre e cmq, e lavorare per te èsuper-stimolante (anche se ha dei ritmi “un tantinello” elevati...). Grazie Philippe per avermi riempito di fiducia e responsabilità, l’ultimo passo che mi mancava per diventare quello che volevo (e che sono contento di) essere. Grazie Andrea per avermi sopportato, per esserti fatto sopportare, per le notti a casa tua, mia o in lab (spesso assieme alla “brutta persona” – grazie anche a lui) a lavorare, a suonare, a mangiare come dei maiali o anche solo al parco a demolire il Jesus Christ Superstar e i Queen. E concorderai di ringraziare i reviewer di CASES, che hanno accettato il Vertical Stealing e le sue menate matematiche frutto delle nostre menti perverse e di 30 ore da svegli. Se non fosse passato, credo che ci saremmo suicidati o scannati a vicenda, dopo “una notte da leoni”. E per quella notte, ringrazio sentitamente i manutentori di distributori di merendine del terzo piano di Ing. per averli riempiti due giorni prima. Fra gli altri ragazzi del lab, in particolare io e il mio fegato ricordiamo con affetto Criscian. E poi il cast di Pasiones Multicore, e Luis Ceze, chiaramente. Paraculate #2 – Grazie alla mia famiglia per avermi sopportato e per aver soprattutto sopportato la mia lontananza, soprattutto tu mamma so quanto ci tieni a vedermi e ad avermi vicino, ma questo non èstato quasi mai possibile. E purtroppo non posso garantirti che la situazione miglioreràin futuro. Mi spiace, avreste dovuto farmi nascere in un’altra nazione, o una 20na di anni prima... Grazie – con scuse annesse – ai ragazzi di Ravenna. Con voi sono stato ancor meno presente che con la mia famiglia: vi basti sapere che mi mancate sempre e cmq, e non sto scherzando. E bona di giocare ad “Amici miei”, siete un po’ grandicelli! (o no?) Grazie a Caps (coglione), Ele, la Lugli, e la Eli. Voi in particolare mi siete stati – gli unici – vicino quando ho toccato VERAMENTE il fondo. Sulemani. E il piùgrosso grazie va all’équipe di Lorient: Moira, Lucie, Dominique, Maria, Steph, Vasco, Juli, Béréngere, Mariana&Tristan, Célie, Nelson, La Chiarina, Fabian, Salma, Nolo e Leandro (in ordine sparso, dovreste esserci tutti). Una volta, Célie mi disse che era troppo felice di avere un gruppo di amici cos`ı: io ribadisco il concetto. Nei prossimi anni, i km (e l’oceano) separeranno o riuniranno alcuni di noi.. saràdivertente vedere come va a finire! Infine, grazie, a una persona che non ho neppure bisogno di nominare (tanto hai capito benissimo). E non serve neppure il motivo: non ci starebbe in questa pagina, e poi tu e io non abbiamo mai dovuto parlare, per dirci qualcosa. Paolo viii Contents List of Figures xiii List of Tables xvii 1 Introduction 1 1.1 Background: many-core shared memory architectures . ........ 1 1.2 Programming shared-memory architectures . ..... 2 1.3 Programming heterogeneous architectures . ...... 3 1.4 OverviewoftheThesis. 4 2 Target architecture and programming model 7 2.1 Shared-memorymany-coreclusters . ... 7 2.1.1 STMicroelectronics’P2012/STHORM . 9 2.1.2 KalrayMPPA ............................ 12 2.1.3 Plurality Hypercore Architecture Line . ... 12 2.2 Shared-memoryprogrammingmodels. 13 2.3 TheOpenMPprogrammingmodel . 15 2.3.1 Workloadpartitioning . 16 2.3.2 Tasking ................................ 19 3 Analysis of the costs of parallel programming support on shared- memory MPSoCs 25 3.1 Introduction.................................. 25 3.2 RelatedWork................................. 27 3.3 TargetArchitecture ............................. 29 3.4 OpenMPSupportImplementation . 31 ix

Use of Shared Memory in the Context of Embedded Multi-Core Processors: Exploration of the Technology and Its Limits

2.5 Classification of Parallel Computers

Chapter 5 Multiprocessors and Thread-Level Parallelism

Chapter 5 Thread-Level Parallelism

Trafficdb: HERE's High Performance Shared-Memory Data Store

Scheduling of Shared Memory with Multi - Core Performance in Dynamic Allocator Using Arm Processor

The Impact of Exploiting Instruction-Level Parallelism on Shared-Memory Multiprocessors

Lecture 17: Multiprocessors

GPU Computing with CUDA Lecture 3 - Efficient Shared Memory Use

Instruction Level Parallelism Example

CIS 501 Computer Architecture This Unit: Shared Memory

Programming with Shared Memory PART I

Multi-Core Architectures