CRAY XC30 System 利用者講習会

CRAY XC30 System 利用者講習会 2015/06/15 1 演習事前準備演習用プログラム一式が /work/Samples/workshop2015 下に置いてあります。各自、/work下の作業ディレクトリへコピーしてください。 2 Agenda 13:30 - 13:45 ・Cray XC30 システム概要ハードウェア、ソフトウェア 13:45 - 14:00 ・Cray XC30 システムのサイト構成ハードウェア、ソフトウェア 14:00 - 14:10 <休憩> 14:10 - 14:50 ・XC30 プログラミング環境・演習 14:50 - 15:00 <休憩> 15:00 - 15:10 ・MPIとは 15:10 - 15:50 ・簡単なMPIプログラム・演習 15:50 - 16:00 <休憩> 16:00 - 16:20 ・主要なMPI関数の説明・演習 16:20 - 16:50 ・コードの書換えによる最適化・演習 16:50 - 17:00 ・さらに進んだ使い方を学ぶ為には 17:00 - 17:30 ・質疑応答 3 CRAY System Roadmap (XT～XC30) Cray XT3 “Red Storm” Cray XT4 Cray XT5 Cray XT5 Cray XE6 Cray XC30 (2005) (2006) h (2007) (2007) (2010) (2012) Cray XT Infrastructure XK System With GPU XMT is based on • XMT2: fall 2011 XT3 • larger memory infrastructure. • higher bandwidth • enhanced RAS • new performance features 6/5/2015 4 CRAY XC30 System構成(1) ノード数 360ノード 2014/12/25 （720CPU, 5760コア）以降理論ピーク性能ノード数 360ノード 119.8TFLOPS （720CPU, 8640コア）総主記憶容量 22.5TB 理論ピーク性能 359.4TFLOPS 総主記憶容量 45TB フロントエンドサービスノードシステム管理ノード（ログインノード） FCスイッチ二次記憶装置磁気ディスク装置システムディスク SMW 管理用端末 System, SDB 4x QDR Infiniband 貴学Network 8Gbps Fibre Channel 1GbE or 10GbE 5 System構成（計算ノード) ノード数：360ノード（720CPU，5760コア） 360ノード(720CPU,8640コア) 総理論演算性能：119.8TFLOPS 359.4TFLOPS 主記憶容量：22.5TB 47TB ノード仕様 CPU ：Intel Xeon E5-2670 2.6GHz 8core CPU数：2 Intel Xeon E5-2690 V3 2.6GHz 12core CPU理論演算性能：166.4GFLOPS 499.2GFLOPS ノード理論演算性能：332.8GFLOPS 998.4GFLOPS ノード主記憶容量：64GB 128GB （8GB DDR3-1600 ECC DIMM x8）ノードメモリバンド幅：102.4GB/s 16 GB DDR4-2133 ECC DIMM x8 136.4GB/s 6 TOP500 (http://www.top500.org/) TOP500は、世界で最も高速なコンピュータシステムの上位500位までを定期的にランク付けし、評価するプロジェクトである。 1993年に発足し、スーパーコンピュータのリストの更新を年2回発表している。ハイパフォーマンスコンピューティング(HPC)における傾向を追跡・分析するための信頼できる基準を提供することを目的とし、LINPACKと呼ばれるベンチマークによりランク付けを行っている。リストの作成はマンハイム大学、テネシー大学、ローレンス・バークレイ米国立研究所の研究者らによる。毎年6月のInternational Supercomputing Conference(ISC)および11月の Supercomputing Conference(SC)の開催に合わせて発表されている。本システムにおいては理論ピーク性能に対し77.3%の実効効率となります。 T/V N NB P Q Time Gflops -------------------------------------------------------------------------------- WR01R2C4 2234880 192 90 96 26755.52 2.78137e+05 この値は最新のtop500リスト(Nov.2014)では、196位相当になります。 7 Cray XC30 System Cabinet 8 Cray XC30 Compute Cabinet 9 XC30 Chassis : Blower Cabinet Hot Swap Blower Assembly Blower Cabinet N+1 configurations Low pressure and velocity of air Low noise (TN26-6 standard, 75 db/cabinet) Blower Cabinet Exploded View Blower Assembly 10 Cray XC30システム冷却 11 Cray XC30システムのパッケージングキャビネット構成 1つのシャーシに16ブレードを搭載合計64ノード（128 CPUソケット）を搭載 Aries間通信網はバックプレーンシャーシ構成ブレード構成 1つのキャビネットに3シャーシ（192ノード）を搭載 Side-to-side冷却エアーフロー 1つのブレードに4ノードを搭載前世代のCray XE6システムと比較して1.5倍合計8つのCPUソケットを搭載のキャビネット幅で2倍のノード数を搭載 1つのAriesルータチップを搭載 12 13 Cray XC30 Compute Blade (left side) 14 Cray XC30 IO Blade (left side) 15 Cray XC30計算ノードと高速ルータチップAries 16 Cray Network Evolution SeaStar 25万コア対応のルーターチップ高効率のルーティング、低コンテンション Red Storm, Cray XT3／XT4／XT5／XT6システム Gemini メッセージスループット100倍以上の改善レイテンシ3倍以上の改善 PGAS, グローバルアドレッシング空間をサポートスケーラビリティの改善100万コア以上 Cray XE6システム Aries 高バンド幅、ホップ数低減、最大で10倍以上の改善非常に効率の良いルーティングと低コンテンション Electro-Optical シグナル Cray XC30システム 17 階層型All-to-AllのDragonflyネットワークトポロジー Torus Topology トーラス・トポロジ Dragonfly Group システム全体を階層型のAll-to-Allで構成本システムでは2階層 dd A & te ks la in u L ps l a ba nc lo E G A ll- to -A l l L in All-to-Allリンクを形成 ks 各端子間は直接接続 1シャーシー内で15通りのルーティングがありますホップカウント数は単一グローバルな帯域幅を向上 Flattened Butterfly Topology 18 CRAY XC30 System概要 Cray XC30 シリーズは、次世代Aries インターコネクト、 Dragonfly ネットワークトポロジ、Crayのスーパーコンピュータラインで初めて採用した高性能Intel Xeon プロセッサ、統合ストレージソリューション、さらにCray のOS、プログラミング環境などの先進的ソフトウエアから成る新世代スーパーコンピュータです。次世代プロセッサへのアップグレードや各種アクセラレータも利用可能とするCray のビジョンアダプティブスーパーコンピューティングを実現する画期的なシステムとなっております。 19 Dragonfly Class-2 Topology ------JAIST System 6 backplanes connected with copper wires in a 2-cabinet group: “Rank-2” Pairs of Aries connect to a optical fiber to interconnect groups “Rank-3” Chassis 4 nodes connect 16 Aries connected to a single Aries in backplane “Rank-1” 20 Dragonflyネットワークの優位性 • 新開発のAriesチップとAll-to-Allをベースにした新しいネットワークトポロジの採用。 • 前世代のCray XE6システムと比較してより高バンド幅、低レイテンシを実現。 • 実アプリケーションによる多数ノードを使用した全通信処理時に著しく性能が向上。（通信性能は2ノード間の評価ではなく、全体通信性能の評価が重要） ~ 20倍の All-to-All バンド幅 21 System構成（Storage) 22 System構成（Lustre File System) 本System(Storage)構成としては、Lustre File Systemにより構成されております。 Lustreファイルシステムは、メタデータ管理サーバ、ストレージ管理サーバおよびクライアントから構成される並列ファイルシステムで、並列にファイルを分散、管理することにより負荷分散を行い、高レスポンスを実現しています。 MPIなどの並列アプリケーションからのデータ入出力など、大量ノードからの入出力を行う作業に適しています。 /work (200TB) Tier 1 1 2 3 4 5 6 7 8 P P Tier 2 1 2 3 4 5 6 7 8 P P Tier 3 1 2 3 4 5 6 7 8 P P DDN RAID S2A9900 23 /workの並列I/O性能 ● /work (DDN-SFA12000, Lustre ファイルシステム)のIORベンチマークによる並列I/O性能は以下の通りです。 clients = 32 (1 per node) repetitions = 3 xfersize = 1 MiB blocksize = 64 GiB aggregate filesize = 2048 GiB Operation Max (MiB) Min (MiB) Mean (MiB) Std Dev Max (OPs) Min (OPs) Mean (OPs) --------- --------- --------- ---------- ------- --------- --------- ---------- write 11234.56 6176.17 9536.07 2375.86 11234.56 6176.17 9536.07 read 10662.81 6742.32 9270.11 1790.50 10662.81 6742.32 9270.11 Max Write: 11234.56 MiB/sec (11780.29 MB/sec) Max Read: 10662.81 MiB/sec (11180.76 MB/sec) ● 設定は api = POSIX, access = file-per-process 24 /xc30-workのI/O性能 ● /xc30-work (ファイルサーバ上のNFS)のI/O性能は以下の通り write 88MB/s, read 106MB/s Writing with putc()...done Writing intelligently...done Rewriting...done Reading with getc()...done Reading intelligently...done start 'em...done...done...done... Create files in sequential order...done. Stat files in sequential order...done. Delete files in sequential order...done. Create files in random order...done. Stat files in random order...done. Delete files in random order...done. Version 1.03e ------Sequential Output------ --Sequential Input- --Random- -Per Chr- --Block-- -Rewrite- -Per Chr- --Block-- --Seeks-- Machine Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP /sec %CP xc30-0 63G 85778 85 88123 3 39613 3 87725 76 106167 4 293.1 0 ------Sequential Create------ --------Random Create-------- -Create-- --Read--- -Delete-- -Create-- --Read--- -Delete-- files /sec %CP /sec %CP /sec %CP /sec %CP /sec %CP /sec %CP 16 993 4 1275 0 237 1 228 1 865 1 473 2 xc30-0,63G,85778,85,88123,3,39613,3,87725,76,106167,4,293.1,0,16,993,4,1275,0,237,1,228,1,865,1,473,2 ● 性能測定にはbonnie++1.03eを使用 25 XC30システムオペレーティングシステム CLE ● オープンソースLinuxをベースに最適化 ● 全ての機能設計でスケーラビリティを重視 ● システム・スケーラビリティ ● アプリケーション・スケーラビリティ ● 外部インタフェイス・スケーラビリティ ● ノード用途に合わせて適用 ● ログインノード専用ソフトウエア ● 計算ノード専用ソフトウエア ● システムサービスノード専用ソフトウエア ● 高速ネットワークインフラの上に実装 ● Aries専用高速プロトコル ● Infiniband, TCP/IP対応 ● 運用に必要な全機能を階層的に統合 ● サードパーティソフトウエアの融合 26 Crayプログラミング環境 Cray Programming Environment • 最適化 Fortran, C, C++ • Cray コンパイラ • Cray fortran コンパイラ • Fortran • 自動最適化、自動並列化 • C/C++ • Fortran 2008 規格準拠 • Cray 科学数学ライブラリCSML • coarray のフルサポート＋デバッガ • 通信ライブラリによるサポート • I/Oライブラリ • Cray C コンパイラ • 性能解析ツール • 自動最適化、自動並列化 • プログラム最適化ツール • UPC のフルサポート＋デバッガによ • Cray 開発ツールキットるサポート • OpenACC 1.0 準拠（Fortran, C） • 以降も積極的な強化計画 • OpenACC 2.0 • OpenMP 4.0 • C++11 • inline assembly • Intel Xeon Phi 27 Cray Programming Environment Distribution Focus on Differentiation and Productivity Programming Programming Optimized Scientific Compilers I/O Libraries Tools Languages models Libraries Distributed Environment setup LAPACK Memory NetCDF Fortran Cray Compiling Environment (Cray MPT) Modules (CCE) • MPI ScaLAPCK • SHMEM HDF5 Debuggers BLAS (libgoto) C lgdb Shared Memory Iterative • OpenMP 3.0 Debugging Support Refinement (CCE & Intel PGI ) Tools GNU Toolkit C++ • Fast Track PGAS & Global Cray Adaptive Debugger View FFTs (CRAFFT) gdb • UPC (CCE) (CCE w/ DDT) • CAF (CCE) • Abnormal Chapel Termination FFTW • Chapel Processing Cray PETSc STAT (with CASK) Python Cray Trilinos Cray (with CASK) Comparative Debugger# Performance Analysis Cray developed #: Under development Cray Performance Licensed ISV SW Monitoring and 3rd party packaging Analysis Tool Cray added value to 3rd party 28 ジョブ投入(実行)環境（バッチ・サブシステム） ● アプリケーションをバッチ・サブシステムに投入して実行する方法インタラクティブ・セッションから、バッチ・サブシステム(PBS Pro)で、aprunコマンドを用いてジョブを実行する事が出来ます。 ※ 具体的な利用方法は、後のプログラミング編でご説明いたします。 Login node User Database node Log-in and yod CPUapbridge inventory start application aprun detabaseapwatch User application app agent Local apsys apinit apsheperdPCT User CPU list Request CPU applicationUser app Compute node UNICOS/CLEcatamount/QK Compute PBSPro PE Scheduler apsched PBSPro Allocator apinit Executorapinit apsheperdPCT User applicationUser apsheperd PBSPro app Fan out PCT UNICOS/CLECompute node User Server catamount/QK application Userapplication app Compute node apinit apsheperdPCT UNICOS/CLcatamount/QK Job User applicationUser Queues app Compute node UNICOS/CLEcatamount/QK 29 ログイン・ノードのファイルシステムは、次の構成になっています。 /root /opt /tmp /work/appli /work Library及びヘッダ一時領域 3rdベンダ・ユーザ一時領域用ーファイル等用アプリケーション用 /opt : 後述いたしますmoduleコマンドでCompilerやLibrary等が読み込まれる為、通常は直接パスで指定は不要です。 30 Cray XC30システムを使用する上での留意点 ● 利用可能な一時ファイルシステム / work ファイルシステムがテンポラリとして利用可能 ※利用の際は自分のユーザ名のディレクトリを作成例： mkdir /work/testuser-name ● ログイン・ノード上にあるコンパイラでコンパイルし、生成した実行形式ファイルが、計算ノードで実行可能 ● 計算ノード用の実行形式ファイルは、ログイン・ノードでは実行しない ● 計算ノードではホームディレクトリ( /home )が利用できないため，ジョブ実行に必要なファイルはすべて/work以下に置く 31 Cray XC30システムへログインする方法 ssh ユーザ名 @ xc30 Sample Program Directory xc30:/work/Samples/workshop2015 Queue Name SEMINAR 並列化プログラミング入門この講習で行う内容 ● プログラミング環境 ● MPIとは？ ● 簡単なMPIプログラム ● 主要なMPI関数の説明 ● 台形公式の数値積分 ● さらに進んだ使い方を学ぶためには？ 34 プログラミング環境 35 プログラミング環境の選択- moduleコマンド ● moduleコマンド概要 ● ソフトウエア開発・実行に必要な環境設定を動的に切り替えるためのコマンドツール ● Cray, IntelおよびGNUコンパイラのプログラミング環境 • Cray環境モジュール PrgEnv-cray： Crayコンパイラ（標準） • Intel環境モジュール PrgEnv-intel: Intelコンパイラ • GNU環境モジュール PrgEnv-gnu： GNUコンパイラ

CRAY XC30 System 利用者講習会

An Operational Perspective on a Hybrid and Heterogeneous Cray XC50 System

New CSC Computing Resources

A New UK Service for Academic Research

Through the Years… When Did It All Begin?

Cray XC30™ Supercomputer Intel® Xeon® Processor Daughter Card

Cray XC40 Power Monitoring and Control for Knights Landing

Hpc in Europe

A Performance Analysis of the First Generation of HPC-Optimized Arm Processors

Accelerated Prediction of the Polar Ice and Global Ocean (APPIGO)

“Piz Daint:” Application Driven Co-Design of a Supercomputer Based on Cray’S Adaptive System Design

Piz Daint” CSCS Enters the Path Towards Petaflop Computing

Accurate, Large-Scale and Affordable Hybrid-PBE0 Calculations With