L3 Cache on Chip Аппаратные Ускорители
Total Page:16
File Type:pdf, Size:1020Kb
IBM Power Systems: представляем процессоры POWER7+ и новое поколение серверов класса предприятия Алексей Бойко POWER Product Manager [email protected] Немного истории © 2012 IBM Corporation RISCRISC процессорыпроцессоры 1974-1978 – проект 801. John Cocke – «отец» IBM RISC архитектуры Source:JOHN COCKE AND V. MARKSTEIN –The evolutions of RICS technology at IBM © 2012 IBM Corporation RISCRISC процессорыпроцессоры Характерные особенности RISC-процессоров Фиксированная длина машинных инструкций (например, 32/64 бита) и простой формат команды. Специализированные команды для операций с памятью — чтения или записи. Операции вида «прочитать-изменить-записать» отсутствуют. Любые операции «изменить» выполняются только над содержимым регистров (т. н. архитектура load-and-store). Большое количество регистров общего назначения (32 и более). Отсутствие поддержки операций вида «изменить» над укороченными типами данных — байт, 16-битное словами. Отсутствие микропрограмм внутри самого процессора. © 2012 IBM Corporation RISCRISC процессорыпроцессоры *ARM (Adwanced RISC Machines)— Apple iPods /iPhone/iPad Palm and PocketPC PDAs RIM BlackBerry smartphone/email devices Nintendo HTC(Qualcom proc) *PowerPC (Apple–IBM–Motorola alliance) *Motorola 68000 *MIPS(SGI computers and the PlayStation, PlayStation 2, Nintendo 64, PlayStation Portable game consoles) *IBM POWER(IBM's supercomputers, midrange servers and workstations, in Nintendo's Gamecube and Wii, Microsoft's Xbox 360 and Sony's PlayStation 3 game consoles, EMC's DMX range of the Symmetrix SAN, and in many embedded applications like printers and cars. * SPARC, by Oracle/Sun Microsystems and Fujitsu * Hewlett-Packard's PA-RISC, also known as HP-PA * Alpha * Hitachi's SuperH © 2012 IBM Corporation ЕстьЕстьRISCRISC процессоры процессоры лили жизньжизнь нана нана Марсе?Марсе?МарсеМарсе «Because of this, he added that an Intel Core i7 processor, for example, wouldn't survive a day on Mars because of the extremes in temperature.» The single-board computer aboard NASA's Curiosity rover is built around a PowerPC RAD750 microprocessor provided by BAE Systems. ComputerWorld August 8 2012 http://www.computerworld.com/s/article/9230060/NASA_Your_smartphone_is_as_smart_as_the_Curiosity_rover CBS News http://www.cbsnews.com/network/news/space/home/spacenews/files/081012_msl_update.html © 2012 IBM Corporation IBM’S 10-year march to UNIX leadership Клиенты выбирают качественные решения 50% 45% 40% UNIX Server Rolling Four Quarter Average Revenue Share 35% 30% 25% DynamicPOWER4 LPARs 20% 15% Micro-PartitioningPOWER5 Q401 Q102 7 Q202 Source: Q IDC30 Worldwide2 Quarterly Server Tracker, http://www.idc.com/getdoc.jsp?containerId=IDC_P348 Q402 Q103 POWER6 Q203 Live Partition Q303 2Q12 R4Q Mobility Q403 Mobility 53% share Q104 + 6.6 pts YTY Q204 Q304 Q404 Q105 HP Q205 Q305 Q405 Sun/Oracle Q106 Q206 Q306 Workload Optimized Q406 POWER7 Q107 Q207 Leadership Q307 IBM Q407 Q108 HP -16% YTY* Q208 Q308 Oracle -24% YTY* Q408 Q109 Q209 Q309 * As reportedQ409 last fiscal quarter Q110 Q210 Q310 Q410 Q111 © 2012 IBM CorporationQ211 Q311 Q411 IBMIBM POWERPOWER processorprocessor roadmaproadmap ~ 3года новое поколение ~ 18месяцев “+”“+” модели POWER8 POWER7/7+ Most POWER6/6 Most POWERful, + POWER5/5 POWERful & Scalable Scalable and Exclusive + Fastest Processor in Performance POWER4/4 Processor Industry. 4,6,8 Core . More Cores Hardware . 32MB On-Chip . Larger Cache + Virtualization In Industry eDRAM . 4th Gen SMT . Dual Core . Power Optimized . Reliability ++ . for.Dual Unix Core & Quad Linux High Frequencies Cores . Accelerators + First Dual Core . Core Md Virtualization + Mem Subsystem + more… . + . 22nm in Industry .Enhanced Scaling Memory Subsystem . Dual Core + . 4 Thread SMT++ High Level design .2 Thread SMT . Chip Multi . Reliability + complete .Distributed Switch + Altivec . VSM & VSX and in implementation Processing . .Core Parallelism + Instruction Retry . Protection Keys+ phase . Distributed Switch . .FP Performance + Dyn Energy Mgmt Power. 45nm 7+ 32nm IBM is the leader . Shared L2 . .Memory bandwidth 2 Thread SMT + Faster . Dynamic LPARs . Very large + Protection Keys in Processor and (32) . 65nm cache . .130nm, 90nm . Accelerators Server design 180nm,2001 130nm 2004 2007 2010 Binary Compatible & Increased Core Performance © 2012 IBM Corporation POWER7+ POWER7 POWER7+POWER7 45 nm 32 nm В 2.5 раза больше L3 cache On chip аппаратные ускорители 9 © 2012 IBM Corporation POWER7+ Design Physical Design: SMP Fabric • 8 cores with integrated Cache, Memory Core Core A Core Core Controllers, and Accelerators c c • 3 / 4 / 6 / 8 Core options L2 L2 E L2 L2 • 32nm technology n g L3 Cache L3 Cache Features: M M • 2.5X increase in L3 Cache C Power Bus C •eDRAM technology L3 Cache L3 Cache G •Higher Frequencies X L2 L2 L2 L2 • Memory Compression Engine B • Active Memory Expansion with no u Core Core s Core Core processor overhead penalty • Encryption / Cryptography Support SMP Fabric • Random Number Generator • Enhanced Energy / Power Gating • 1/20 LPAR Core Granularity with FW7.6 • 2X SPFP performance 10 © 2012 IBM Corporation Дизайн процессоров IBM POWER POWER5 POWER5+ POWER6 POWER7 POWER7+ Technology 130nm 90nm 65nm 45nm 32nm Size 389 mm2 245 mm2 341 mm2 567 mm2 567 mm2 Transistors 276 M 276 M 790 M 1.2 B 2.1 B Cores 2 2 2 8 8 1.65 1.9 4 - 5 3 – 4 3.6 – 4.4+ Frequencies GHz GHz GHz GHz GHz 256 KB 256 KB L2 Cache 1.9MB Shared 1.9MB Shared 4MB / Core per Core per Core L3 Cache 36MB 36MB 32MB 4MB / Core 10MB / Core Memory Cntrl 1 1 2 / 1 2 / 1 2 / 1 Architecture Out of Order Out of Order In of Order Out of Order Out of Order LPAR 10 / Core 10 / Core 10 / Core 10 / Core 20 / Core 11 © 2012 IBM Corporation Преимущества eDRAM для POWER7+ С использованием eDRAM Без eDRAM было бы 2.1Млрд транзисторов 567 mm2 5.4Млрд транзисторов 950 mm2 IBM’s eDRAM выигрыш: . Большая плотность: 1/3 площади от 6T SRAM . Меньшее энергопотребление: 1/5 SRAM . Меньше ошибок: в 250x меньше чем в SRAM . Большая производительность 12 © 2012 IBM Corporation POWER7+ процесссоры и архитектура До 40% больше производительности, идеальны для транзакционных и бизнес-аналитических нагрузок Большая масштабируемость и гибкость • 20 Виртуальных машин на ядро • Elastic Capacity on Demand Выше производительность • 10 MB L3 Cache • up to 4.4 GHz POWER7+ processors • Memory Compression Accelerator • Random number generator • Enhanced Single Precision Floating Point performance • Enhanced GX system bus SMP Fabric Core Core Core Core Улучшенная доступность Acc L2 L2 L2 L2 • Self-healing capability for L3 Cache functions Eng • Dynamic processor fabric bus repair L3 Cache L3 Cache M Power Bus M • Processor re-initialization C C L3 Cache G L3 Cache • X Hardware encryption support for AIX L2 L2 L2 L2 SMP BFabric u Энергоэффективность Core Core s Core Core • Delivering 5x more performance per watt • Enhanced energy / power gating POWER7+ 32 nm 13 © 2012 IBM Corporation Active Memory Expansion. Еще «больше» памяти На 25% больше памяти . Возможность расширения 2 5 0 памяти до 125% 125% 2 0 0 . Клиент получает больше памяти используя меньше ресурсов POWER7+ 1 5 0 . Больше циклов процессора 1 0 0 для основных задач 5 0 0 No AME P7 AME P7+ AME 14 18 октября, 2012 © 2012 IBM Corporation Новые процессоры помогают защитить данные Технологии Выигрыш клиента . Crypto Offload Accelerators provide . Cryptography can be applied to a broader set of cryptographic engines to relieve the data creating a stronger security ecosystem. P7+ processor from the . Two primary AIX security applications will be performance intensive enabled by default: cryptographic algorithms of AES, • Encrypted File Systems, protecting your SHA, and RSA. data in storage or on backup media • IPsec, protecting your data over the network. • Processor performance remains focused on business applications. High quality random numbers . At the core of cryptography is the need for high generated with high performance quality entropy or random numbers. via the RNG offload feature of the . With the POWER7+ RNG offload providing this P7+ processor. entropy, security is enhanced and processor performance remains focused on your business applications. 15 18 октября, 2012 © 2012 IBM Corporation Кое-что про модели © 2012 IBM Corporation Портфолио IBM POWER Systems 2012 Power 795 Power 780 Power 775 Power 770 Power 750 Power 720 / 740 IBM PureFlex System IBM Flex Power 755 System p460 IBM Flex System p260 BladeCenter Power 710 / 730 PS700/PS701/ IBM Flex PS702/PS703/PS704 System p24L © 2012 IBM Corporation Новые серверы IBM Power на процессорах POWER7+ Power 770 Power 780 •POWER7+ processors • POWER7+ processors •До 48 ядер @ 4.2 GHz • До 64 ядер @ 4.4 GHz •До 64 ядер @ 3.8 GHz • До128 ядер @ 3.7 GHz •12 или 16 core 4U узлы • 16 или 32 core 4U узлы •До 4x узлов в системе • До 4x узлов в системе •Dynamic Platform Optimizer • Dynamic Platform Optimizer Increased performance and scale Increased scalability to 128-cores Now up to 20 VMs per-core Increased performance per-core Increased energy efficiency Now up to 20 VMs per-core Elastic Capacity on Demand Increased energy efficiency Enterprise RAS Built-in Elastic Capacity on Demand Share resources in Power Systems Pool Enterprise RAS 18 © 2012 IBM Corporation Что нового в Power 770 на POWER7+? Категории Power 770 Power 770+ Преимущество Processor • POWER7 45nm • POWER7+ 32 nm Faster performance L3 cache • 4 MB per core • 10 MB per core Faster performance • 64 cores @ 3.3 GHz • 64 cores @ 3.8 GHz Configurations • 48 cores @ 3.7 GHz • 48 cores @ 4.2 GHz Faster performance