Optimizing for the Radeon RDNA Architecture

OPTIMIZING FOR THE RADEONTM RDNA ARCHITECTURE LOU KRAMER DEVELOPER TECHNOLOGY ENGINEER, AMD WHO AM I? Lou Kramer Developer Technology Engineer at AMD since Nov. 2017 I work closely with game studios to make their games look amazing and run fast on AMD GPUs ☺ AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 2 WHY THIS TALK? On July 7th 2019, we released a new GPU architecture with our RadeonTM RX 5700 cards! → RadeonTM New Architecture (RDNA) Today, we have several products based on RDNA AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 3 WHY THIS TALK? RDNA is present in a bunch of different products Design goals of RDNA • Scalability • Special focus on • Geometry handling • Cache flushes • Amount of work in flight needed • Latency AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 4 AGENDA • Architecture • Compute Unit (CU) Work Group Processor (WGP) • GCN RDNA • Highlights of changes • Optimizations • Texture access • Workload distribution • Shader optimizations AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 5 COMPUTE UNIT (CU) SIMD16 SIMD16 SIMD16 SIMD16 SALU LDS Texture L1$ VGPR VGPR VGPR VGPR 64KB Units 16KB I$ SGPR 32KB 64KB 64KB 64KB 64KB K$ CU 16KB CU CU A GCN based GPU has several Compute Units - a CU has: • 4 SIMD16 + VGPRs This is where the shaders get • 1 Scalar ALU + SGPRs executed! • 1 L1 Cache • … AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 6 COMPUTE UNIT (CU) SIMD16 SIMD16 SIMD16 SIMD16 SALU LDS Texture L1$ VGPR VGPR VGPR VGPR 64KB Units 16KB I$ SGPR 32KB 64KB 64KB 64KB 64KB K$ CU 16KB CU CU 4 CUs share 1 Instruction and Constant Cache This is where the shaders get executed! AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 7 COMPUTE UNIT (CU) SIMD16 SIMD16 SIMD16 SIMD16 SALU LDS Texture L1$ VGPR VGPR VGPR VGPR 64KB Units 16KB I$ SGPR 32KB 64KB 64KB 64KB 64KB K$ CU 16KB CU CU v_add_f32 v0, v1, v2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Each SIMD16 executes wavefronts of size 64 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 In Lockstep -> 4 cycle instruction 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 4x SIMD16 = 64 threads ☺ 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 v_mov_b32 v3, v4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 8 CU WORK GROUP PROCESSOR (WGP) SIMD16 SIMD16 SIMD16 SIMD16 SALU LDS Texture L1$ VGPR VGPR VGPR VGPR 64KB Units 16KB I$ SGPR 32KB 64KB 64KB 64KB 64KB K$ CU 16KB CU CU SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB I$ K$ LDS 32KB 16KB 128 KB SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB WGP AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 9 CU WORK GROUP PROCESSOR (WGP) A RDNA based GPU has several Work Group Processors - a WGP has: • 4 SIMD32 + VGPRs • 4 Scalar ALUs + SGPRs This is where the shaders get • 2 L0 Cache executed! • 1 Instruction and Constant cache • … SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB I$ K$ LDS 32KB 16KB 128 KB SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB WGP AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 10 CU WORK GROUP PROCESSOR (WGP) 5 WGPs share a L1 cache … more on this later ☺ This is where the shaders get executed! SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB I$ K$ LDS 32KB 16KB 128 KB SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB WGP AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 11 CU WORK GROUP PROCESSOR (WGP) SIMD16 SIMD16 SIMD16 SIMD16 SALU LDS Texture L1$ VGPR VGPR VGPR VGPR 64KB Units 16KB I$ SGPR 32KB 64KB 64KB 64KB 64KB K$ CU 16KB CU 1 CU is ~ ½ WGP or in CU other words ... SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB I$ K$ LDS 32KB 16KB 128 KB SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB WGP AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 12 CU WORK GROUP PROCESSOR (WGP) SIMD16 SIMD16 SIMD16 SIMD16 SALU LDS Texture L1$ VGPR VGPR VGPR VGPR 64KB Units 16KB I$ SGPR 32KB 64KB 64KB 64KB 64KB K$ CU 16KB CU CU 2 CU is ~ 1 WGP! SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB I$ K$ LDS 32KB 16KB 128 KB SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB WGP AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 13 CU WORK GROUP PROCESSOR (WGP) SIMD16 SIMD16 SIMD16 SIMD16 SALU LDS Texture L1$ VGPR VGPR VGPR VGPR 64KB Units 16KB I$ SGPR 32KB 64KB 64KB 64KB 64KB K$ CU 16KB CU 1 WGP has the double CU amount of SALUs and I$ and K$ than 2 CUs SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB I$ K$ LDS 32KB 16KB 128 KB SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB WGP AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 14 CU WORK GROUP PROCESSOR (WGP) Each SIMD32 executes wavefronts of size 32 natively Single instruction cycle v_add_f32 v0, v1, v2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 v_mov_b32 v3, v4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB I$ K$ LDS 32KB 16KB 128 KB SIMD32 SALU SALU SIMD32 Texture L0$ VGPR 128KB SGPR SGPR VGPR 128KB Units 16KB WGP AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 15 GCN RDNA CU CU CU CU CU CU CU CU CU CU CU CU CU CU CU CU L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ I$ and K$ I$ and K$ I$ and K$ I$ and K$ L2 Cache, 4MB HBM 2 Example above: RadeonTM RX Vega 64 • 64 CUs • Global L2 Cache • Global Memory: HBM 2 AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 16 GCN RDNA Example below: RadeonTM RX 5700 XT • 20 WGPs (~40 CUs) • 1 L1 Cache per 5 WGPs • Global L2 Cache • Global Memory: GDDR 6 WGP WGP WGP WGP WGP L0$ I$ and K$ L0$ L0$ I$ and K$ L0$ L0$ I$ and K$ L0$ L0$ I$ and K$ L0$ L0$ I$ and K$ L0$ L1$, 128KB L2 Cache, 4MB GDDR 6 AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 17 GCN RDNA Example below: RadeonTM RX 5700 XT • 20 WGPs (~40 CUs) There is no equivalent to the L1 cache on GCN. • 1 L1 Cache per 5 WGPs This is a new level of • Global L2 Cache cache! • Global Memory: GDDR 6 WGP WGP WGP WGP WGP L0$ I$ and K$ L0$ L0$ I$ and K$ L0$ L0$ I$ and K$ L0$ L0$ I$ and K$ L0$ L0$ I$ and K$ L0$ L1$, 128KB L2 Cache, 4MB GDDR 6 AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 18 GCN RDNA RadeonTM RX Vega 64 CU CU CU CU CU CU CU CU CU CU CU CU CU CU CU CU L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ L1$ I$ and K$ I$ and K$ I$ and K$ I$ and K$ L2 Cache, 4MB HBM 2 RadeonTM RX 5700 XT WGP WGP WGP WGP WGP L0$ I$ and K$ L0$ L0$ I$ and K$ L0$ L0$ I$ and K$ L0$ L0$ I$ and K$ L0$ L0$ I$ and K$ L0$ L1$, 128KB L2 Cache, 4MB GDDR 6 AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 19 HIGHLIGHT OF CHANGES RDNA GCN WGP CU L0, L1, L2, L3 L1, L2, L3 Wave32 native, Wave64 via dual issue of Wave32 Wave64 (4x SIMD16) Single cycle instruction Four cycle instruction 4 triangles/clock (after culling), >> 4 (before culling) 2-4 triangles/clock (culled/unculled) AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 20 HIGHLIGHT OF CHANGES RDNA GCN WGP ≈ 2 CUs: double SALU & I$ & K$ CU L0, L1, L2, L3 L1, L2, L3 Wave32 native, Wave64 via dual issue of Wave32 Wave64 (4x SIMD16) Single cycle instruction Four cycle instruction 4 triangles/clock (after culling), >> 4 (before culling) 2-4 triangles/clock (culled/unculled) AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 21 HIGHLIGHT OF CHANGES RDNA GCN WGP CU L0, L1, L2, L3 L1, L2, L3 Wave32 native, Wave64 via dual issue of Wave32 Wave64 (4x SIMD16) Single cycle instruction Four cycle instruction 4 triangles/clock (after culling), >> 4 (before culling) 2-4 triangles/clock (culled/unculled) AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 22 HIGHLIGHT OF CHANGES RDNA GCN WGP CU L0, L1, L2, L3 L1, L2, L3 Wave32 native, Wave64 via dual issue of Wave32 Wave64 (4x SIMD16) Single cycle instruction Four cycle instruction 4 triangles/clock (after culling), >> 4 (before culling) 2-4 triangles/clock (culled/unculled) v_add_f32 v0, v1, v2 -upper- v_mov_b32 v3, v4 -upper- AMD Public | Let’s build… 2020 | Optimizing for the RadeonTM RDNA architecture | May 15, 2020 | 23 HIGHLIGHT OF CHANGES RDNA GCN WGP CU L0, L1, L2, L3 L1, L2, L3 Wave32 native, Wave64 via dual issue of Wave32 Wave64 (4x SIMD16) Single cycle instruction Four cycle instruction 4 triangles/clock (after culling), >> 4 (before culling) 2-4 triangles/clock (culled/unculled) v_add_f32 v0, v1, v2 v_mov_b32 v3, v4 v_add_f32 v0, v1, v2 v_mov_b32 v3, v4 AMD Public | Let’s

Optimizing for the Radeon RDNA Architecture

Real-Time Finite Element Method (FEM) and Tressfx

AMD Powerpoint- White Template

Report of Contributions

The Amd Linux Graphics Stack – 2018 Edition Nicolai Hähnle Fosdem 2018

A Review of Gpuopen Effects

AMD Linux Driver 2021.10 Release Notes

Gen Vulkan API

Radeon GPU Profiler Documentation

Codexl 2.6 GA Release Notes

Finally There Are Output Variables, Deﬁning Data Being Passed Onto the Next Stages

A Survey on Bounding Volume Hierarchies for Ray Tracing

Concurrency Model in Explicit Graphics Apis Dominik Baumeister & Dr