High Performance Java for Multi-Core Systems

High Performance Java for Multi-core Systems Sabela Ramos Garea Department of Electronics and Systems University of A Coru~na,Spain Department of Electronics and Systems University of A Coru~na,Spain PhD Thesis High Performance Java for Multi-core Systems Sabela Ramos Garea June 2013 PhD Advisors: Guillermo López Taboada Juan Touri~noDom´ınguez Dr. Guillermo López Taboada Dr. Juan Touri~noDom´ınguez Profesor Contratado Doutor Catedráticode Universidade Dpto. de Electrónicae Sistemas Dpto. de Electrónicae Sistemas Universidade da Coru~na Universidade da Coru~na CERTIFICAN Que a memoria titulada \High Performance Java for Multi-core Systems" foi rea- lizada por Dna. Sabela Ramos Garea baixo a nosa direcciónno Departamento de Electrónicae Sistemas da Universidade da Coru~nae conclúea Tese de Doutoramento que presenta para a obtencióndo t´ıtulode Doutora pola Universidade da Coru~na coa Menciónde Doutor Internacional. Na Coru~na,o 25 de Xu~node 2013 Asdo.: Guillermo López Taboada Asdo.: Juan Touri~noDom´ınguez Director da Tese de Doutoramento Director da Tese de Doutoramento Asdo.: Sabela Ramos Garea Autora da Tese de Doutoramento Resumo da Tese de Doutoramento Introducción O interese que a comunidade da computaciónde altas prestacións(High Perfor- mance Computing, HPC) véndemostrando na linguaxe Java, aumentou considera- blemente nos últimosanos grazas ámellora experimentada en canto a rendemento e áscaracter´ısticasque fan de Java unha linguaxe altamente productiva. Entre elas, cabe destacar a portabilidade e independenza da plataforma, a simplicidade, a ro- bustez, a seguridade, a orientacióna obxectos e contar cunha grande comunidade de desarrolladores, tanto no mundo académicocoma no empresarial. Ademais da mellora de rendemento, hai dúascaracter´ısticascruciais que propiciaron a progre- siva adopciónde Java na computaciónde altas prestacións:o soporte para redes de interconexióne a incorporaciónde multithreading no núcleoda linguaxe. Estas dúascalidades fan de Java unha linguaxe idóneapara a programaciónen contornos paralelos. Dentro dos contornos paralelos actuais, os sistemas de memoria compartida vol- ven a cobrar forza nun escenario que, ata hai pouco, estaba dominado por clusters de sistemas monoprocesador, que permit´ıanconstru´ırcontornos de computaciónde altas prestaciónsreducindo os costes. Non obstante, o incremento de rendemento dos procesadores empezou a acadar l´ımitesf´ısicos,o que levou áapariciónde problemas de disipaciónde calor e de alta ineficiencia enerxética.Para superar estes obstácu- los, os fabricantes de hardware comezaron a centrarse na mellora do rendemento dos procesadores mediante o incremento do númerode núcleospresentes en cada un deles, o que se co~nece como procesadores multi-core ou multi-núcleo.De feito, na actualidade, procesadores de catro ou máisnúcleosson comúnsen ordenadores de v vi uso persoal. O incremento progresivo no númerode núcleosestáconducindo taménáxerali- zaciónde procesadores many-core para a computaciónde ámbito xeral. E neste eido volve a aparecer o problema do consumo enerxético,xa que ter un grande número de núcleospor procesador en situaciónsnas que sóse precisa unha pequena parte, provoca unha grande ineficiencia enerxética.Para solventar este problema, aparecen os aceleradores de uso espec´ıfico,como as tarxetas gráficas(Graphics Processing Unit, GPU), arquitecturas many-core que sóse utilizan para tareas espec´ıficasde procesamento de gráficosmentres outro procesador (host) éo que se encarga da com- putaciónxeral. As caracter´ısticasdestes aceleradores e as súaselevadas capacidades de cómputofixeron que fosen adoptadas para a aceleraciónde códigosvectoriais non necesariamente relacionados coa computacióngráfica.Sen embargo, as dificultades de programacióndestes aceleradores favoreceron a apariciónde aceleradores de arquitecturas x86 que soportan linguaxes e paradigmas tradicionais de programación, coma o coprocesador Xeon Phi comercializado por Intel. O éxitodas arquitecturas multi- e many-core indica a necesidade de ferramentas e librer´ıasde programaciónque exploten o rendemento en memoria compartida, onde Java, co soporte para multithreading, presenta unha grande vantaxe. O principal problema éque a API de manexo de threads écomplicada, sendo o usuario o que ten que lidiar coa creación/destrucciónde threads e, o que émáisimportante, coa posibilidade de apariciónde race conditions e inconsistencias. Para solventar isto, Java inclúeunha librer´ıade concorrencia na que se traballa con pools de threads e cun paradigma de programaciónorientado ádescomposiciónda carga de traballo en tarefas (que pode ser recursiva utilizando a funcionalidade de fork/join). Este paradigma obliga a que os algoritmos paralelos non orientados a tarefas te~nanque ser reescritos ou utilizar estas ferramentas de maneira non eficiente. Esta Tese presenta unha análisedetallada do estado da arte en canto ásituación de Java para a programaciónde sistemas de memoria compartida, centrándoseen soluciónsaxeitadas para a computaciónde altas prestacións.Os principais obxectivos deste traballo son a análisedo estado do soporte Java ácomputaciónde altas prestaciónsen memoria compartida e o desenvolvemento de middleware para mel- lorar tanto o rendemento como a productividade. En consecuencia, levouse a cabo un estudo do soporte software dispo~niblepara a programaciónmulti-núcleoen Java vii e realizouse o dese~no,implementacióne avaliacióndun dispositivo de comunicacións de paso de mensaxes en Java optimizado para memoria compartida. Este dispositivo proporciona unha API de alto nivel que elimina a necesidade de manexar threads ou a descomposiciónen tarefas. Esta API segue a especificaciónJava de paso de mensaxes (Message Passing in Java, MPJ) baseada no estándarMPI, amplamente utilizado en computaciónde altas prestacións.Taménse inclúeunha optimización de patrónsde comunicaciónsentre procesos ou threads (operacións colectivas), tan- to bloqueantes coma non bloqueantes, para contornos baseados en sistemas multi- núcleo,aléndunha análiseda adecuacióne potencial das colectivas non bloqueantes en contornos de memoria compartida. Por outra banda, f´ıxoseun estudo e avaliación de soluciónsdispo~niblespara a explotaciónde sistemas many-core en aplicaciónsJa- va. A principal conclusióndeste estudo éque o uso de Java en contornos many-core éproductivo e pode proporcionar resultados de alto rendemento. Metodolox´ıade Traballo A metodolox´ıade investigación seguida na presente Tese de Doutoramento con- sistiu en: Definir a lista de obxectivos identificando as tarefas necesarias para acadalos, tendo en conta os traballos previos e os recursos dispo~nibles. Determinar a secuencia de execucióndas tarefas aténdoseásrestricciónsque puidesen existir e buscando a orde máisaxeitada. Establecer a duracióndas tarefas e a oportunidade de desenvolvemento nun momento determinado. Organizar os obxectivos e tarefas en bloques de certa entidade que definan etapas. Definir, para cada etapa, os fitos, ou metas a acadar en tempo definido, tendo en conta que cada etapa pode constar dunha ou varias metas. Os obxectivos e tarefas foron definidos de maneira iterativa para poder aproveitar o co~necemento adquirido en etapas previas. viii A continuación,enumérasea lista de obxectivos (O), agrupados en bloques (B), detallando as tarefas (T ) que foron desenvolvidas na Tese para acadar cada un dos obxectivos. B 1. Análisedas capacidades da linguaxe Java para a programaciónde altas prestacións en memoria compartida. O 1.1. Análiseda programaciónen Java para memoria compartida. T 1.1.1. Estudo da usabilidade e rendemento de Java para programaciónde altas prestacións. T 1.1.2. Análisedas carater´ısticasinternas de Java para programaciónpar- alela en memoria compartida. T 1.1.3. Análisedoutros modelos de programaciónparalela utilizados en Java actualmente. T 1.1.4. Avaliacióndas necesidades de optimizacióndo soporte Java para arquitecturas de memoria compartida. O 1.2. Análisedo estado actual de dispo~nibilidadedo soporte en Java para pro- gramaciónheteroxénea. T 1.2.1. Búsquedabibliográficade soluciónse proxectos existentes que den soporte áprogramaciónheteroxéneaen Java. T 1.2.2. Análisedo soporte dispo~niblee identificaciónde carencias. B 2. Estudo das principais arquitecturas de memoria compartida dispo~nibles. O 2.1. Estudo e avaliaciónde arquitecturas de memoria compartida con soporte para a execuciónde instrucciónsx86. T 2.1.1. Análisedetallada de arquitecturas multi-core dispo~nibles. T 2.1.2. Análisedetallada de arquitecturas many-core x86 dispo~nibles. O 2.2. Estudo e avaliacióndoutras arquitecturas de memoria compartida. T 2.2.1. Análisedetallada de unidades de procesamento gráfico(Graphics Processing Units, GPU) para programaciónde propósitoxeral. B 3. Análise,dese~noe implementacióndunha soluciónde paso de mensaxes en Java para memoria compartida. ix O 3.1. Avaliacióndo estado da arte do paso de mensaxes en Java para memoria compartida. T 3.1.1. Análisede proxectos de paso de mensaxes noutras linguaxes con soporte espec´ıficopara memoria compartida. T 3.1.2. Análisedo soporte para paso de mensaxes en Java. O 3.2. Dese~noe implementacióndunha soluciónde paso de mensaxes en Java para memoria compartida. T 3.2.1. Dese~noda solucióntendo en conta as caracter´ısticasespec´ıficasde Java e o seu soporte para programaciónparalela en memoria compartida. T 3.2.2. Implementacióndo dese~node paso de mensaxes proposto. T 3.2.3. Optimizaciónda soluciónimplementada facendo especial fincapénos puntos de sincronizaciónentre threads. O 3.3. Avaliaciónda soluciónproposta. T 3.3.1. Dese~nodo conxunto de probas a realizar e seleccióndas librer´ıas máisrelevantes entre as atopadas no punto O 3.1 para comparar coa soluciónproposta. T 3.3.2. Análisee seleccióndos contornos de probas e do hardware dispo~nible. T 3.3.3.

Load more