SC20를 통해 본 HPC 기술 동향 HPC Technology Through SC20
Total Page:16
File Type:pdf, Size:1020Kb
Electronics and Telecommunications Trends SC20를 통해 본 HPC 기술 동향 HPC Technology Through SC20 어익수 (I.S. Eo, [email protected]) 슈퍼컴퓨팅기술연구센터 책임연구원 모희숙 (H.S. Mo, [email protected]) 슈퍼컴퓨팅기술연구센터 책임연구원 박유미 (Y.M. Park, [email protected]) 슈퍼컴퓨팅기술연구센터 책임연구원/센터장 한우종 (W.J. Han, [email protected]) 인공지능연구소 책임연구원/연구위원 ABSTRACT High-performance computing (HPC) is the underpinning for many of today’s most exciting new research areas, to name a few, from big science to new ways of fighting the disease, to artificial intelligence (AI), to big data analytics, to quantum computing. This report captures the summary of a 9-day program of presentations, keynotes, and workshops at the SC20 conference, one of the most prominent events on sharing ideas and results in HPC technology R&D. Because of the exceptional situation caused by COVID-19, the conference was held entirely online from 11/9 to 11/19 2020, and interestingly caught more attention on using HPC to make a breakthrough in the area of vaccine and cure for COVID-19. The program brought together 103 papers from 21 countries, along with 163 presentations in 24 workshop sessions. The event has covered several key areas in HPC technology, including new memory hierarchy and interconnects for different accelerators, evaluation of parallel programming models, as well as simulation and modeling in traditional science applications. Notably, there was increasing interest in AI and Big Data analytics as well. With this summary of the recent HPC trend readers may find useful information to guide the R&D directions for challenging new technologies and applications in the area of HPC. KEYWORDS 고성능컴퓨팅, 슈퍼컴퓨팅, 병렬컴퓨팅, 병렬프로그래밍 Ⅰ. 서론 를 분석하거나 사람의 인지기능을 학습하여 새로 운 인공지능을 구현하는 등 그 활용 범위를 넓혀가 슈퍼컴퓨터는 기존의 과학 연구와 기술 개발의 고 있다. 새로운 슈퍼컴퓨터의 고성능 요구는 엑사 활용에서 사람과 집단에서 만들어지는 빅데이터 스케일급의 컴퓨터 시대를 이끌었으며, 연구와 개 * DOI: https://doi.org/10.22648/ETRI.2021.J.360313 * 이 논문은 대한민국 정부(과학기술정보통신부)의 재원으로 한국연구재단 슈퍼컴퓨터개발선도사업의 지원을 받아 수행된 연구임[과 제번호: 2021M3H6A1017683]. 본 저작물은 공공누리 제4유형 출처표시+상업적이용금지+변경금지 조건에 따라 이용할 수 있습니다. ©2021 한국전자통신연구원 134 전자통신동향분석 제36권 제3호 2021년 6월 발이 국가 과학기술의 수준을 보여주고 있어 국가 구기관, 표준화 단체, 대학에서 참여하였다. 별로 개발에 매진하고 있다. SC 학회는 매년 미국 전체 일정의 첫째 주(11월 9일~13일)에 튜토리 에서 열리는 학회로 슈퍼컴퓨터의 여러 분야에 걸 얼과 워크숍이 진행되었으며, 둘째 주(11월 16일 친 연구 논문 발표와 개발 결과물이 전시되는 종합 ~19일)에 keynote, plenary, 논문 발표, 포스터 발 학술대회로 슈퍼컴퓨터의 연구 개발 동향을 한눈 표, 패널 토의, 기업체 발표가 진행되었다. 이처 에 볼 수 있어 국내 주요 연구기관들도 참여하여 럼 2주에 걸쳐 슈퍼컴퓨터 HW, 시스템 SW, 응용 그 학술대회 동향을 분석, 보고하고 있다. 이번 코 SW, 개발 및 운용 분야의 다양하고 새로운 기술 로나19 팬데믹 상황에서도 SC20은 2020년 11월 9 들이 발표되었다. HW 분야에는 Exascale 슈퍼컴퓨 일부터 19일까지 온라인으로 개최되었으며, 미국 터와 CPU, GPU, FPGA 가속기를 포함하는 이종 동부시간 기준으로 오전 10시에 시작하였고 한국 (Heterogeneous) 시스템, 메모리 운영과 데이터 저 표준시로 오전 10시에 한 번 더 재전송하였다. 참 장기술, 양자컴퓨팅, 통신 네트워크 및 연결망 기 가 화면상에서 질문을 입력하면 진행자가 발표 후 술이 발표되었으며, 시스템/운용 SW 분야에서는 에 질문을 전달하는 방식으로 진행하였으며 동영 OpenMP, MPI, 이종 프로그래밍, 메모리 프로그 상은 학회 종료 후 6개월 동안 참가자들에게 공개 래밍, 런타임 기술이 발표되었고, 응용 SW 분야에 되고 있다. 서는 대규모, 긴급의사결정, 실시간 상황 분석 및 본 고는 SC20의 프로그램 구성을 설명하고, 고 가시화를 위한 기술들이 발표되었다. 그리고 슈퍼 성능컴퓨팅 기술 선도 및 관심 국가와 기관을 파악 컴퓨터의 설계와 운영 분야인 성능 최적화, 모델 하고자 발표 내용을 통계적으로 정리하고, 기술의 링, 고장감내, HPC 컨테이너 런타임, 클라우드기 최신 동향을 파악하고자 튜토리얼, 워크숍, 논문 술 활용 및 전력관리 기술들이 발표되었다. 세션에서 발표된 주요 HW와 SW 기술 및 응용 기 튜토리얼은 최근 관심을 끄는 분야 또는 새롭 술을 폭넓게 정리하며 결론을 맺는다. 게 부상하는 기술을 선택하고 기술을 소개하여 그 기술의 개발 동향을 가늠하게 한다. 48개의 기 Ⅱ. SC20 개요 술 분야를 발표된 42개 트랙에 대응시켰다. 기 술 분야별로 정리하면 Software Engineering 8개 트 SC20은 예년과 같이 튜토리얼, 워크숍, 프로그 랙, Scalable Computing, Portability, Parallel Pro- 램, 전시회 등 네 종류의 모임이 열렸다. gramming Language, Libraries and Models 각 7개 트 튜토리얼은 12개 2파트 코스와 18개의 단일파트 랙, Heterogeneous System 6개 트랙, Performance/ 코스로 개설되었으며, 132명의 발표자와 53개 기 Productivity, Measurement and Evaluation 각 5개 트 관이 참여하였다. 워크숍은 24세션에 168편의 논 랙, Requirement and Performance, OpenMP, MPI, 문이 발표되었으며, 369개 기관에서 922명의 저자 Bigdata, Benchmark 각 4개 트랙, Reproducibility and 가 참여하였다. 프로그램은 33개 세션에서 103편 Transparency, Network, Cloud and Distributed System 의 논문이 발표되었으며, 124개 기관 604명 저자가 각 3개 트랙으로 나뉜다. 참여하였다. 전시회에는 285개 업체가 참여하였으 워크숍에서는 성능 모델링, 재구성 컴퓨터, 메 며 칩 제조사, 컴퓨터 시스템업체, 서비스업체, 연 모리 중심 컴퓨터, 병렬 저장장치, 구조 및 알고리 어익수 외 / SC20를 통해 본 HPC 기술 동향 135 즘, 프로그래밍 모델, MPI, 병렬 분산 계산, 다중 응용 프로그램 개발, 시스템 성능 평가 기술, 시스 병렬 계산, 런타임, OS, ML, DL, 빅데이터, 긴급 템 서비스 기술을 기업체에서도 활발히 연구하고 의사결정, 성능/이식성/생산성, 고장감내, 운용 있다. 지원 툴, 데이터 관리, HPC 교육 등 기반기술, 하 드웨어, 소프트웨어, 응용프로그램, 활용의 여러 Ⅲ. 슈퍼컴퓨터 주요 기술 분야 내용을 발표하였다. 1. 이종(Heterogeneous) 시스템 워크숍에서 발표한 논문 수는 168편이며, 논문 저자가 속한 기관이 있는 국가를 기준으로 발표 국 슈퍼컴퓨터 프로세서는 증가하는 AI 학습 및 연 가 및 지역을 분류한 내용은 다음과 같다. 한 편에 산 기능과 빅데이터를 처리하기 위하여 기존의 병 다수의 저자가 있어서 발표 논문 수보다 많은 국가 렬 연산을 구현하던 CPU core 외에, GPU를 포함 가 있음을 알 수 있다. 미국 235명이며, 독일 36명, 하여 FPGA와 같은 전용가속기를 사용하는 구조를 영국 24명, 일본 12명, 프랑스 11명, 스위스 8명, 채택하고 있다. 전용가속기는 병렬성, 고속 및 저 스페인과 네덜란드 6명, 중국 5명, 대한민국과 덴 전력 특성이 있어 특정 분야의 연산에 효율적인 시 마크 3명 순이다. 유럽 전체는 105명이며, 아시아 스템 특성을 구현한다. 시스템 구현에 있어 프로세 는 24명, 기타 4명이다. 기관이 속한 국가별로 분 서는 레지스터, 캐시, 메인 메모리, 스토리지 메모 류하면 미국 78개 기관, 유럽 62개 기관, 중국 5개 리와 결합하여 고속 병렬 연산기능을 구현하고 다 기관, 일본 8개 기관이 분포하고 있다. 중 사용자를 지원한다. 다중 프로세서, 메모리들 프로그램에서 발표된 논문의 분야는 모델링과 은 서로 고속 인터페이스를 통하여 연결되어 병렬 시뮬레이션, 양자 시뮬레이션, 스토리지, I/O, 네 분산 연산을 처리하여 시스템의 요구 규격인 연산 트워크, 통신, 전력제어 기술, 커널, 컴파일러, 포 속도를 달성하게 된다. 팅, 구조와 결합된 알고리즘, 그래프, 전통적인 물 리, 화학, 선형대수 분야와 최근 부상한 AI, ML, 가. FPGA 가속기 DL, 데이터 분석 등이 있다. 프로그램에서 발표한 FPGA(Field-Programmable Gate Arrays) 구조를 논문 수는 103편이며, 저자가 속한 기관이 있는 국 채택한 고속 연산 가속기로 사용하고자 하는 시 가별로 분류하면 미국 386명, 중국 84명, 일본 52 도는 FPGA 제조사에서 제공하는 설계 환경인 명, 스위스 18명, 스페인 13명, 독일 8명, 대한민국 HLS(High Level Synthesis) 툴을 이용하여 C/C++ 설 과 네덜란드 각 6명, 호주와 홍콩 5명, 영국과 덴마 계에서 2차원 병렬 연산, 행렬 위치 교환, 상수 연 크와 폴란드 각 3명이며, 이들 외에 1명 이상인 국 산 부하감소를 하드웨어로 빠르게 구현하는 방법 가는 8개국이다. 기관이 속한 국가별로 분류하면 을 제공하고[1], BLAS를 HLS 환경에서 FPGA에 구 미국 71개 기관, 유럽 16개 기관, 중국 13개 기관, 현한 예가 발표되었다[2]. 일본 13개 기관이 분포하고 있다. 연산 커널 알고리즘을 Intel Zeon, Nvidia V100 국가별로 고성능컴퓨팅 기술을 연구개발하는 GPU와 Intel Arria10, Xilinx U280 FPGA에서 루프라 기관은 주로 국가지원 연구기관과 대학들이었으 인 모델을 이용하여 비교하여 최고 성능을 보이는 며, 미국의 경우에는 시스템 구현기술, 인공지능 GPU보다 속도가 떨어지나 HBM을 사용한 FPGA 136 전자통신동향분석 제36권 제3호 2021년 6월 에서 전력소모가 적음을 보였다[3]. 폭, 접근속도, 용량에 따라 캐시, 메인 메모리, 데 CPU, GPU, FPGA 각각을 이용하여 행렬 곱을 이터 및 파일 저장에 사용된다. 프로세서의 연산 수행할 때 연산속도와 소모 전력을 비교하여 성능 능력과 메모리의 저장 데이터의 읽고 쓰기 속도는 면에서 GPU가 가장 좋으나 전력면에서 FPGA가 전체 컴퓨팅시스템에 성능을 결정하게 된다. 프로 가장 좋음을 보였다[4]. 세서와 메모리 속도 불일치를 최소화하는 방식으 로 메모리를 배치하며 대개 메모리 용량이 커짐에 나. FPGA 구동 소프트웨어 따라 메모리 속도가 느려지므로 메모리 크기를 변 FPGA에서 이진검색 알고리즘을 벡터화하고, 화시키며 계층적으로 프로세서와 결합한다. HPC의 OpenCL을 이용하여 그리드 검색을 구현하였으며, 경우 노드 사이의 데이터 교환이 발생하므로 원격 기존보다 단축된 검색시간을 달성하였다[5]. MPI 메모리와 데이터 이동 역시 중요한 성능 요소이다. 를 FPGA 설계툴인 HLS를 이용하여 FPGA 하드웨 어 설계를 함으로써 기존의 CPU만으로 수행했던 가. 메모리 중심 컴퓨팅 시스템 경우와 비교해서, 2배 이상 빠르면서 전력소모는 전력 소모 증가와 동작 속도의 한계 때문에 나노 90% 줄였다[6]. OpenCL 커널을 개발하여 FPGA 수준의 반도체 제조는 성능 향상지표인 무어의 법 에 다양하게 적용하였으며 FPGA와 메모리의 데 칙을 만족하지 못하지만, 비 폰노이만 방식 구조 이터 교환이 매우 중요함을 보여주었다[7]. FPGA 및 프로그래밍과 런타임은 이러한 성능 제약을 뛰 가속기를 사용하여 구현한 kernel이 기존의 CPU와 어넘게 한다. 데이터 전송량 증가, 메모리 대역폭 CPU+GPU보다 행렬 연산에서 더 좋은 성능과 에 증가, 메모리 지연 감소를 가진 메모리 중심 HPC 너지 효율을 보여주고 있다[8]. FPGA service toolkit 가속기는 성능 향상을 가져온다[12]. 을 사용하여 구현한 FPGA 가속기에서 ML을 적용 데이터 집중 응용분야의 성능 향상에 메모리 접 하는 고에너지 물리 문제를 푸는 대규모 연산을 제 근과 데이터 이동이 매우 중요한 요소이며, 데이터 안하였다[9]. OpenCL을 이용하여 다수의 FPGA를 스트리밍을 처리하는 새로운 구조 혁신이 필요하 사용한 HPC는 기존의 GPU 성능을 뛰어넘는 결과 며 쓰레드 이동 개념을 제안하고 있다[13]. 를 얻었다[10]. 많은 고성능 시스템은 여러 가지 형태의 메모리 OpenACC를 사용하여 GPU와 함께 하는 연산 장치를 가지고 있으며, 고사양의 저용량 메모리와 환경에서 CPU만 사용할 때와 비교하여 수십 배의 저사양의 고용량 메모리를 사용한다. 여러 메모리 성능 향상을 얻을 수 있었다[11]. 를 효율적으로 사용하고자 운영체제는 응용 프로 그램에 따라 HW 관리 메모리, SW 관리 메모리를 혼합하여 데이터를 관리한다. HBM을 사용한 혼 2. 메모리와 스토리지 합 데이터 관리모드는 단일 메모리 관리를 사용한 컴퓨터 시스템에서 메모리는 프로세서와 가 경우보다 향상된 성능을 보인다[14].