Scheduling Tasks Over Multicore Machines Enhanced with Acelerators: a Runtime System's Perspective

Scheduling Tasks over Multicore machines enhanced with acelerators: a Runtime System’s Perspective Cédric Augonnet To cite this version: Cédric Augonnet. Scheduling Tasks over Multicore machines enhanced with acelerators: a Runtime System’s Perspective. Distributed, Parallel, and Cluster Computing [cs.DC]. Université Bordeaux 1, 2011. English. tel-00777154 HAL Id: tel-00777154 https://tel.archives-ouvertes.fr/tel-00777154 Submitted on 17 Jan 2013 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. N◦ d’ordre: 4460 UNIVERSITE´ DE BORDEAUX 1 ECOLE´ DOCTORALE DE MATHEMATIQUES´ ET INFORMATIQUE THESE` present´ ee´ pour obtenir le grade de DOCTEUR Spécialité: Informatique Scheduling Tasks over Multicore machines enhanced with Accelerators: a Runtime System’s Perspective par CédricAUGONNET soutenue le 9 Decembre´ 2011 Apres` avis de : M. Albert COHEN Directeur de recherche INRIA Rapporteur M. Jean-François MEHAUT Professeur des Universites´ Rapporteur Devant la commission d’examen composee´ de : M. Henri BAL Professeur des Universites´ Examinateur M. Albert COHEN Directeur de recherche INRIA Rapporteur M. David GOUDIN Ingenieur´ Chercheur au CEA Examinateur M. Jean-François MEHAUT Professeur des Universites´ Rapporteur M. Raymond NAMYST Professeur des Universites´ Directeur de These` M. Jean ROMAN Professeur a` l’IPB President´ M. Samuel THIBAULT Maˆıtre de Conferences´ Directeur de These` A` Camille, 4 Remerciements Au terme de ce periple´ qu’est la these,` je souhaite remercier toutes celles et ceux qui m’ont permis de parcourir ce chemin tortueux. Je remercie en premier lieu mes encadrants pour m’avoir guide´ pendant ces quatre dernieres` annees.´ Merci Raymond de m’avoir donne´ l’opportunite´ de travailler sur un tel sujet et de m’avoir encadre´ tout au long de cette aventure, depuis mon premier stage en licence jusqu’a´ la fin de ma these.` Merci Samuel d’avoir toujours et´ e´ la` pour me faire prendre le recul necessaire´ afin de canaliser un enthousiasme quelque peu debordant.´ Je suis d’ailleurs particulierement` fier d’avoir et´ e´ ton premier thesard.´ Je tiens aussi a` remercier les autres membres de mon jury, que j’ai eu la chance de recontrer a` differentes´ reprises au cours de ce periple´ : Henri Bal – dont le cours aura suscite´ en moi une veritable´ passion pour le calcul parallele` –, David Goudin et Jean Roman. Je remercie particulierement` Jean-François Mehaut et Albert Cohen pour avoir accepte´ et pris le temps relire mon manuscrit. Une these,` c’est avant tout un travail d’equipe.´ Merci donc aux membres de Runtime d’avoir rendu ce travail possible et de m’avoir supporte´ malgre´ un handicap administratif flagrant (par- don Sylvie !). Merci a` celles et ceux qui ont participe´ a` l’aventure StarPU et qui m’ont permis d’avancer bien plus que je ne l’aurais imagine´ : Samuel, Raymond, Nathalie, Nicolas, François, Ludovic, Sylvain, Olivier ... Et bonne chance aux personnes qui reprendront le flambeau ! Je remercie egalement´ Alexandre, Denis, Emmanuel, Marie-Christine, Olivier et Pierre-Andre´ pour leurs conseils avises.´ Merci aux autres personnes avec lesquelles j’ai pu partager les joies de la these` : Babeth la specialiste´ des makis, Bertrand le marathonien, Broq l’homme le plus droleˆ du monde, Diak mon co-bureau invisible, Jej´ e´ le sosie officiel de Michael Lonsdale, Paulette et ses compils de Thunderdome, et enfin Stephanie´ a` qui je dois certainement 3000 euros chez Nespresso. Par ailleurs, je tiens a` m’excuser aupres` de mes differents´ co-bureaux pour leur avoir inflige´ mes frasques musicales, un fouillis sans nom, et ma decoration´ a` base de poneys. Qui aurait cru qu’on puisse chauffer un bureau a` l’aide de BLAS3 ? Merci aussi aux personnes avec qui j’ai eu la chance de collaborer a` Bordeaux et dans les projets ProHMPT, MediaGPU, PEPPHER, ou encore celles qui m’ont accueilli a` l’Universite´ du Tennesse Knoxville et d’Urbana-Champaign. Merci notamment a` Emmanuel, Hatem, Mathieu et Stan de m’avoir ouvert les portes de l’ICL. Je pense egalement´ a` mes amis qui ont rendu cette periode´ un peu plus leg´ ere.` Merci a` Cecile,´ Cyril, Amelie´ et Christophe pour les soirees´ Wii/Master System 2 sur fond de Rhum et Tequila. Special´ big up a` Juliette et François qui ont toujours et´ e´ presents´ dans les moments importants, et ce malgre´ la distance. Merci aussi a` eux (et a` Camille) pour m’avoir supporte´ en tant que colocataire : il en fallait du courage pour tolerer´ ma boite a` meuh, ma carte musicale Coca-Cola, et mes moultes decorations´ des plus seyantes ! Au passage, une caresse a` Babouch mon chat d’adoption, pour ces longues heures passees´ sur mes genoux pendant que je m’affairais a` rediger´ ce document ! Merci enfin aux geeks de l’ENS Lyon qui m’ont fait decouvrir´ l’informatique et la Guinness : Dain, Grincheux, Julio, Kaisse, Louloutte, Nanuq, Nimmy, Stilgar, TaXules, Tchii, Theblatte, Tonfa, Vinz, Youpi et Zmdkrbou. Parceque sans eux je n’en serais probablement pas arrive´ la:` merci a` mes parents d’avoir toujours pris sur eux pour me soutenir, malgre´ la distance. J’espere` que vous ne m’en voulez pas trop pour toutes ces fetesˆ de Noel¨ passees´ a` travailler entre le saumon et la bucheˆ ; ou pour cette epoque´ durant laquelle je decouvrais´ Internet tout en vous empechantˆ de recevoir le moindre coup de fil (une petite pensee´ au passage pour tous les autres parents victimes du forfait AOL 99 francs illimite).´ Merci a` mon autre famille pour sa grande gen´ erosit´ e´ et pour m’avoir fait apprecier´ les joies du Sud-Ouest. Merci Michel pour toutes nos discussions, pour les leçons de conduite, et pour avoir sacrifie´ a` maintes reprises votre reserve´ de champagne, afin d’accompagner les moments importants. Merci Genevieve` pour tous les croissants, pains au chocolat (ou chocolatines !) et autres bouteilles de Jurançon. Merci a` Julie et Jerry, et a` Charlotte et Jean-Clement´ pour m’avoir accueilli si souvent : que c’est bon d’etreˆ une piece` rapportee´ dans ces conditions ! Enfin plus que quiconque, je tiens vraiment a` remercier Camille, qui a toujours et´ e´ la` pour moi. Merci pour tout cet amour, cette douceur, et ce reconfort´ ! Merci a` toi pour les sacrifices consentis, et pour tout ce temps passe´ a` me soutenir malgre´ mes innombrables absences. Je te suis infiniment reconnaissant de m’avoir ouvert les yeux sur ce que sont les vrais bonheurs de la vie, que tu rends chaque jour un peu plus belle. 6 Abstract Multicore machines equipped with accelerators are becoming increasingly popular in the High Performance Computing ecosystem. Hybrid architectures provide significantly improved energy efficiency, so that they are likely to generalize in the Manycore era. However, the complexity introduced by these architectures has a direct impact on programmability, so that it is crucial to provide portable abstractions in order to fully tap into the potential of these machines. Pure offloading approaches, that consist in running an application on regular processors while offloading predetermined parts of the code on accelerators, are not sufficient. The real challenge is to build systems where the application would be spread across the entire machine, that is, where computation would be dynamically scheduled over the full set of available processing units. In this thesis, we thus propose a new task-based model of runtime system specifically designed to address the numerous challenges introduced by hybrid architectures, especially in terms of task scheduling and of data management. In order to demonstrate the relevance of this model, we designed the StarPU platform. It provides an expressive interface along with flexible task scheduling capabilities tightly coupled to an efficient data management. Using these facilities, together with a database of auto-tuned per-task performance models, it for instance becomes straightforward to develop efficient scheduling policies that take into account both computation and communication costs. We show that our task-based model is not only powerful enough to provide support for clusters, but also to scale on hybrid manycore architectures. We analyze the performance of our approach on both synthetic and real-life workloads, and show that we obtain significant speedups and a very high efficiency on various types of multicore platforms enhanced with accelerators. 8 Résumé Les machines multicœurs equip´ ees´ d’accel´ erateurs´ deviennent de plus en plus populaires dans le domaine du Calcul Haute Performance. Les architectures hybrides reduisent´ la consommation energ´ etique´ de maniere` significative et sont donc amenees´ a` se gen´ eraliser´ dans l’ere` du manycœur. Cependant, la complexite´ induite par ces architectures a un impact direct sur leur programma- bilite.´ Il est donc indispensable de fournir des abstractions portables afin de tirer pleinement parti de ces machines. Les approches qui consistent a` executer´ une application sur des processeurs gen´ eralistes´ et a` ne deporter´ que certaines parties pred´ etermin´ ees´ du calcul sur des accel´

Scheduling Tasks Over Multicore Machines Enhanced with Acelerators: a Runtime System's Perspective

モバイル性能を向上させたAVノートPC Qosmiotm V65

Toshiba Group's Environmental Vision 2050

Fast Elliptic-Curve Cryptography on the Cell Broadband Engine

Introduction to Cell Broadband Engine Architecture

事業編財務ハイライト・株式会社東芝（連結） 2009 年、2008 年および 2007 年の各 3 月 31 日に終了した事業年度

Ideal Gflops/Sec for This Code – 178.2 Gflops/Sec Using 4 Qs20s (Net-Linux Layer) Projections Why Heterogeneous?

2005 Cell Broadband Engine (Group Consisting of Toshiba, IBM, and Sony Corporation) ~ Integrated Circuit ~

メディアストリーミングプロセッサspursengine TM とその

Spursenginetm a High-Performance Stream Processor Derived from Cell/B.E.TM for Media Processing Acceleration

A Processor Simulator for Multi-Core Architecture Research

Jak Wygląda Proces Badawczy I Wdrażanie Wynalazków Do Produkcji W Firmie Toshiba. Historia Wynalazków

Challenges to EDA System from the View Point of Processor Design and Technology Drivers