Numerical Methods for the Accelerated Resolution of Large Scale Linear Systems on Massively Parallel Hybrid Architecture Abal-Kassim Cheik Ahamed
Total Page:16
File Type:pdf, Size:1020Kb
Numerical methods for the accelerated resolution of large scale linear systems on massively parallel hybrid architecture Abal-Kassim Cheik Ahamed To cite this version: Abal-Kassim Cheik Ahamed. Numerical methods for the accelerated resolution of large scale linear systems on massively parallel hybrid architecture. Other. Ecole Centrale Paris, 2015. English. NNT : 2015ECAP0035. tel-02918210 HAL Id: tel-02918210 https://tel.archives-ouvertes.fr/tel-02918210 Submitted on 20 Aug 2020 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. École doctorale no 287 : Sciences pour l’ingénieur Doctorat École Centrale Paris THÈSE pour obtenir le grade de docteur délivré par École Centrale des Arts et Manufactures “CentraleSupélec” Spécialité «Mathématiques Appliquées et Informatique» Laboratoire d’accueil: Mathématiques Appliquées aux Systèmes présentée et soutenue publiquement par Abal-Kassim CHEIK AHAMED le 07 juillet 2015 Méthodes numériques pour la résolution accélérée des systèmes linéaires de grandes tailles sur architectures hybrides massivement parallèles Directeur de thèse: Frédéric MAGOULÈS JURY Mme. Corinne ANCOURT LE QUELLENEC MINES ParisTech Rapporteur M. Raphaël COUTURIER Univ. de Franche Comté Examinateur M. Che-Lun HUNG Providence Univ. Rapporteur M. Michaël KRAJECKI Univ. de Reims Président Frédéric MAGOULÈS École Centrale Paris Directeur de thèse T M. Jean-François MÉHAUT Univ. Joseph Fourier Examinateur H — 2015ECAP0035 — École Centrale des Arts et Manufactures (CentraleSupélec) E Mathématiques Appliquées aux Systèmes Grande Voie des Vignes, 92295 Châtenay-Malabry Cedex, France S E RECEIVED my french Baccalauréat S. (Scientific) in Mayotte, France, in 2006. In 2008, I graduated with three B.Sc. Degree at the Université de Pau et des Pays de l’Adour and Université de Cergy-Pontoise, I France. I graduated with Engineer degree in the Department of HPC and Scientific Computing at the Ecole Internationale des Sciences du traitement de l’information (EISTI), France, in 2011. I also graduated with a M.Sc. degree in the Department of Science, Technology and Health at the Université de Cergy-Pontoise, France, in 2011. I candidate toward the PhD degree of Ecole Centrale Paris (CentraleSupélec), France. ✦ Abal-Kassim CHEIK AHAMED Fr.: Méthodes numériques pour la résolution accélérée des systèmes linéaires de grandes tailles sur architectures hybrides massivement parallèles En.: Numerical methods for the accelerated resolution of large scale linear systems on massively parallel hybrid architecture Date de production: 07 octobre 2015 Date de soutenance: 07 juillet 2015 Doctorat École Centrale Paris (CentraleSupélec) Spécialité “Mathématiques Appliquées et Informatique” Laboratoire d’accueil: Mathématiques Appliquées aux Systèmes Directeur de thèse: Frédéric MAGOULÈS Mme. Corinne ANCOURT LE QUELLENEC MINES ParisTech Rapporteur M. Raphaël COUTURIER Univ. de Franche Comté Examinateur M. Che-Lun HUNG Providence Univ. Rapporteur JURY : M. Michaël KRAJECKI Univ. de Reims Président Frédéric MAGOULÈS École Centrale Paris Directeur de thèse M. Jean-François MÉHAUT Univ. Joseph Fourier Examinateur AUTRES : M. Denis GERRER Nvidia France Invité T École doctorale no 287 : Sciences pour l’ingénieur — 2015ECAP0035 — École Centrale des Arts et Manufactures (École Centrale Paris) «CentraleSupélec » H Mathématiques Appliquées aux Systèmes Grande Voie des Vignes, 92295 Châtenay-Malabry Cedex, France E Copyright © Abal-Kassim CHEIK AHAMED S E In visions of the dark night I have dreamed of joy departed- But a waking dream of life and light Hath left me broken-hearted. Ah! what is not a dream by day To him whose eyes are cast On things around him with a ray Turned back upon the past? That holy dream- that holy dream, While all the world were chiding, Hath cheered me as a lovely beam A lonely spirit guiding. What though that light, thro’ storm and night, So trembled from afar- What could there be more purely bright In Truth’s day-star? A Dream (1827) by Edgar Allan Poe ABSTRACT OF THE THESIS Numerical methods for the accelerated resolution of large scale linear systems on massively parallel hybrid architecture Abstract — Advances in computational power have led to many developments in science and its applications. Solving linear systems occurs frequently in scientific computing, as in the finite element discretization of partial differential equations. The running time of the overall resolution is a direct result of the performance of the involved algebraic operations. In this dissertation, different ways of efficiently solving large and sparse linear systems are put forward. We present the best way to effectively compute linear algebra operations in an heterogeneous multi-core-GPU environment in order to make solvers such as iterative methods more robust and therefore reduce the computing time of these systems. We propose new techniques to speed algorithms up the auto-tuning of the threading design, according to the problem characteristics and the equipment level in the hardware and available resources. Numerical experiments performed on a set of large-size sparse matrices arising from diverse engineering and scientific problems, have clearly shown the benefit of the use of GPU technology to solve large sparse systems of linear equations, and its robustness and accuracy compared to existing libraries such as Cusp. The main priority of the GPU program is computational time to obtain the solution in a parallel environment, i.e., “How much time is needed to solve the problem?”. In this thesis, we also address another question regarding energy issues, i.e., “How much energy is consumed by the application?”. To answer this question, an experimental protocol is established to measure the energy consumption of a GPU for fundamental linear algebra operations accurately. This methodology fosters a “new vision of high-performance computing” and answers some of the questions outlined in green computing when using GPUs. The remainder of this thesis is devoted to synchronous and asynchronous iterative algorithms for solving linear systems in the context of a multi-core-GPU system. We have implemented and analyzed these algorithms using iterative methods based on sub-structuring techniques. Mathematical models and convergence results of synchronous and asynchronous algorithms are presented here, as are the convergence results of the asynchronous sub-structuring methods. We then analyze these methods in the context of a hybrid multi-core-GPU, which should pave the way for exascale hybrid methods. Lastly, we modify the non-overlapping Schwarz method to accelerate it, using GPUs. The im- plementation is based on the acceleration of the local solutions of the linear sub-systems associated with each sub-domain using GPUs. To ensure good performance, optimized conditions obtained by a stochastic technique based on the Covariance Matrix Adaptation Evolution Strategy (CMA-ES) are used. Numerical results illustrate the good performance, robustness and accuracy of synchronous and asynchronous algorithms to solve large sparse linear systems in the context of an heterogeneous multi-core-GPU system. Keywords — Parallel algorithm, GPU, OpenCL, CUDA, Auto-tuning, Green computing, En- ergy consumption, Iterative methods, Synchronous, Asynchronous, Substructuring methods, Domain Decomposition Method, Schwarz, Hybrid methods, Exascale i RÉSUMÉ DE LA THÈSE Méthodes numériques pour la résolution accélérée des systèmes linéaires de grandes tailles sur architectures hybrides massivement parallèles Résumé — Les progrès en termes de puissance de calcul ont entraîné de nombreuses évolutions dans le domaine de la science et de ses applications. La résolution de systèmes linéaires survient fréquemment dans le calcul scientifique, comme par exemple lors de la résolution d’équations aux dérivées partielles par la méthode des éléments finis. Le temps de résolution découle alors directement des performances des opérations algébriques mises en jeu. Cette thèse a pour but de développer des algorithmes parallèles innovants pour la résolution de systèmes linéaires creux de grandes tailles. Nous étudions et proposons comment calculer efficace- ment les opérations d’algèbre linéaire sur plateformes de calcul multi-coeur hétérogènes-GPU afin d’optimiser et de rendre robuste la résolution de ces systèmes. Nous proposons de nouvelles techniques d’accélération basées sur la distribution automatique (auto-tuning) des threads sur la grille GPU suivant les caractéristiques du problème et le niveau d’équipement de la carte graphique, ainsi que les ressources disponibles. Les expérimentations numériques effectuées sur un large spectre de matrices issues de divers problèmes scientifiques, ont clairement montré l’intérêt de l’utilisation de la technologie GPU, et sa robustesse comparée aux bibliothèques existantes comme Cusp. L’objectif principal de l’utilisation du GPU est d’accélérer la résolution d’un problème dans un environnement parallèle multi-coeur, c’est-à-dire “Combien de temps faut-il pour résoudre le prob- lème?”. Dans cette