Seminar Hochleistungsrechner: Aktuelle Trends Und Entwicklungen Wintersemester 2016/2017 Verbindungsstrukturen

Total Page:16

File Type:pdf, Size:1020Kb

Seminar Hochleistungsrechner: Aktuelle Trends Und Entwicklungen Wintersemester 2016/2017 Verbindungsstrukturen Seminar Hochleistungsrechner: Aktuelle Trends und Entwicklungen Wintersemester 2016/2017 Verbindungsstrukturen Moritz D¨otterl Technische Universit¨at Munchen¨ 1.2.2017 Zusammenfassung Systems nicht aktiv steigern. Sehr wohl k¨onnen sie aber die Systemleistung sehr stark negativ beein- In dieser Seminararbeit werden Verbindungsstruk- flussen und somit gute Prozessoren regelrecht aus- turen in Hochleistungsrechnern behandelt. Es wer- bremsen. Deshalb muss sichergestellt werden, dass den verschiedene Ebenen betrachtet, auf denen un- eine Verbindungsstruktur gut genug funktioniert. terschiedliche Systeme miteinander verbunden wer- Um nun Exascale Performance erreichen zu k¨onnen, den. Fur¨ die verschiedenen Ebenen werden aktuelle werden sehr viele leistungsstarke Prozessoren par- Systeme vorgestellt und verglichen. Der Leser soll allel ben¨otigt, die optimal miteinander verbunden so ein tieferes Verst¨andnis fur¨ aktuelle Verbindungs- sind. strukturen in Hochleistungsrechnern erhalten. In dieser Arbeit werden verschiedene Verbindungs- strukturen auf verschiedenen Ebenen vorgestellt. Zun¨achst werden mit HyperTransport und Quick- 1 Einleitung Path zwei aktuell genutzte CPU-CPU Verbindungs- strukturen betrachtet und verglichen. Im n¨achsten Der aktuell schnellste Hochleistungsrechner ist der Abschnitt wird eine neue Technologie von Nvidia Sunway TaihuLight in China. Er hat eine theore- zur Anbindung von Grafikkarten untereinander und tische Spitzenleistung von 125 PetaFLOPS und ist zur CPU betrachtet: NVLink. Im letzten Teil der damit weit vor dem zweitschnellsten Hochleistungs- Arbeit wird EXTOLL, eine Verbindungsstruktur rechner, der eine theoretische Spitzenleistung von zwischen verschiedenen Knoten betrachtet. 55 PetaFLOPS erreicht (Stand 11.2016)[5]. In der Zukunft sollen solche Systeme noch leistungsf¨ahi- ger werden. Firmen versuchen die Ersten zu sein, 2 CPU-CPU Verbindung die es schaffen, ein System zu bauen, das die magi- sche ExaFLOPS Marke uberschreitet.¨ Solche Syste- In klassischen Hochleistungsrechnern werden fur¨ me werden als Exascalesysteme bezeichnet. Damit maximale Rechenleistung viele Prozessoren einge- solche Systeme m¨oglich werden, mussen¨ die aktuell setzt. So ist es keine Seltenheit, dass zwei oder mehr verwendeten Technologien weiterentwickelt werden. Prozessoren sich ein Mainboard teilen und direkt Dazu geh¨oren auch die Verbindungsstrukturen zwi- miteinander zusammenarbeiten. Im Folgenden wer- schen den Recheneinheiten. den zwei Technologien vorgestellt, die seit ein paar Diese tragen dabei nicht direkt zur Leistung eines Jahren benutzt werden, um mehrere Prozessoren Prozessors bei, so k¨onnen sie die Performance eines auf einem Mainboard miteinander zu verbinden. 1 2.1 HyperTransport durfen¨ [13]. Zus¨atzlich zu den Datenleitungen be- sitzt HyperTransport fur¨ jedes Byte, also pro acht Auf der offiziellen Webseite zu HyperTrans- Leitungen, eine eigene Taktleitung sowie, seit Ge- port heißt es ubersetzt,¨ HyperTransport sei eine neration 3.0, eine Leitung die angibt, ob es sich um hochmoderne, paketbasierte, skalierbare Punkt-zu- ein Kontrollsignal handelt oder nicht. Im Vergleich Punkt Verbindungsstruktur mit großer Bandbreite dazu gab es bei ¨alteren Versionen dafur¨ lediglich ei- und geringer Latenz [7]. Vorgestellt wurde Hyper- ne Leitung pro Link. Des Weiteren gibt es pro Link Transport ursprunglich¨ 2001 und seitdem bis 2008 eine Leitung, die angibt, ob die Stromversorgung zur Version 3.1 weiterentwickelt. Entworfen wur- und das Taktsignal stabil sind, sowie eine Resetlei- de es vom HyperTransport-Konsortium, einer non- tung. Profit Organisation, gegrundet¨ von vielen bekann- Bei x86-basierten Systemen gibt es zus¨atzlich die ten Firmen wie zum Beispiel AMD, Nvidia, Broad- M¨oglichkeit, einen Link abzuschalten w¨ahrend ei- com und Apple[10]. ner Taktfrequenz¨anderung, sowie ein weiteres Si- gnal um anzuzeigen, ob ein Link aktiv ist. Hy- 2.1.1 Anwendungsbereich perTransport arbeitet mit verschiedenen Taktraten, die sich je nach Generation und Endger¨at unter- Angewendet wird HyperTransport besonders in scheiden und im Bereich von 200 MHz bis 3200 MHz AMD-basierten Systemen zur CPU-CPU Verbin- liegen [13]. Daten werden im DDR-Verfahren mit dung, sowie zum Chipsatz. Des Weiteren wurde differentiellen Signalpaaren bei einer Spannung von HyperTransport auch in Apples Power Mac G5[17] 1,2 V ±5% ubertragen.¨ DDR steht fur¨ Double Da- und einigen MIPS Systemen, wie dem PMC-Sierra ta Rate, dabei werden die zu ubertragenden¨ Bits RM9000X2 eingesetzt. Somit steht HyperTransport nicht nur bei einer steigenden Flanke des Taktes, in Konkurrenz zu Intels QuickPath Technologie, die sondern sowohl bei steigender als auch bei fallender sp¨ater erl¨autert wird, und besonders zu PCI Ex- Flanke auf den Bus gelegt. So wird eine h¨ohere Da- press. Wobei QuickPath im Grunde als indirekter tenrate erzielt. HyperTransport ist prinzipiell nicht Konkurrent zu betrachten ist, da HyperTransport Cache-Koh¨arent, jedoch hat AMD die propriet¨aren und QuickPath nur mit unterschiedlichen Prozes- Erweiterungen Koh¨arent HyperTransport und Hy- soren kompatibel sind. Des Weiteren kann Hyper- perTransport Assist entwickelt, auf die hier nicht Transport, genau wie PCI Express, auch eingesetzt weiter eingegangen werden soll[15]. werden um externe Peripherie sowie E/A Control- ler anzusteuern[17]. Dafur¨ verwendet HyperTrans- 2.1.3 Features und Vergleich mit anderen port sogar denselben Verbinder wie PCI Express. Systemen Da allerdings die Pinbelegung anders ist wird der HyperTransport-Verbinder um 180 Grad gedreht Im Vergleich zu PCI Express hat HyperTrans- verbaut. port eine geringere Latenz und bietet dadurch eine schnellere Ubertragung.¨ Grund dafur¨ sind eine effi- 2.1.2 Funktionsweise zientere Anbindung an den Prozessor sowie weniger Overhead der einzelnen Pakete. Abbildung 1 zeigt HyperTransport besteht aus zwei einzelnen unidi- einen Vergleich zwischen dem ben¨otigten Overhead rektionalen Punkt-zu-Punkt Verbindungen, die zu- bei HyperTransport und PCI Express. Es ist klar sammen eine bidirektionale Verbindung erm¨ogli- zu sehen, dass HyperTransport pro Paket weni- chen. Durch Weiterleitungen k¨onnen so auch Net- ger Overhead ben¨otigt als PCI Express, allerdings ze uber¨ mehrere Ger¨ate, hier Links genant, ge- kommen diese Informationen vom HyperTransport baut werden. Jede Verbindung besteht aus 2, 4, Konsortium selber und sind deshalb mit Vorsicht 8, 16 oder 32 Datenleitungen pro Richtung, wobei zu genießen: Es muss beachtet werden, dass PCI beide Richtungen unterschiedliche Breiten besitzen Express mit einem Paket bis zu 4096 Byte Daten 2 2.2 Intel QuickPath QickPath ist eine von Intel entwickelte Punkt-zu- Punkt basierte Verbindungsstruktur zur Kommu- nikation verschiedener Prozessoren untereinander und zum Chipsatz. Es deckt somit im Grunde dieselben Anforderungen ab wie zum Beispiel HyperTransport oder PCI Express, ist im Gegen- satz dazu allerdings ein Routing-Mechanismus, der verschiedene Prozessoren in einem Netzwerk verbindet. Dafur¨ wird der kurzeste¨ Weg zwischen zwei Prozessoren ermittelt, gegebenenfalls fuhrt¨ dieser uber¨ weitere Prozessoren. QuickPath wurde erstmals 2008 von Intel vorgestellt und ersetzte den bis dahin benutzten Front Side Bus. QickPath soll demn¨achst durch eine neuere Technologie ersetzt werden, uber¨ die allerdings, außer dem Abbildung 1: HyperTransport Paket Format im Namen UltraPath, noch nichts bekannt ist (Stand Vergleich zum PCI Express Paket Format [12] Dezember 2016). 2.2.1 Funktionsweise ubertragen¨ kann, wobei HyperTransport lediglich maximal 64 Byte Daten in einem Paket ubertragen¨ Genau wie bei HyperTransport auch besteht ein kann. Dies resultiert daraus, dass eine Cache line, bidirektionaler Port bei QuickPath aus zwei ein- typischerweise 64 Byte groß, in einem Paket ubert-¨ zelnen unidirektionalen Links. Ein Prozessor kann ragen werden soll. Selbst bei maximaler Paketgr¨oße dabei ein oder mehrere Ports haben. Abbildung 2 12 hat HyperTransport somit 64 = 18; 75% Overhead. zeigt ein Setup in dem vier einzelne Prozessoren Das ist nicht besonders viel weniger als bei PCI mit je vier QuickPath Ports miteinander und mit 0;2∗(4096+8+16)+8+16 Express 4096 = 20; 70%. Viel wich- dem Chipsatz verbunden sind. Es ist auch gezeigt, tiger dabei ist, dass der Overhead bei kleineren Pa- dass ein bidirektionaler QuickPath Port aus zwei keten wesentlich geringer ist als bei PCI Express. unidirektionalen Links besteht. Zus¨atzlich dazu Das liegt vor allem daran, dass bei HyperTransport besitzen die Prozessoren weitere Busse, uber¨ die sie keine spezielle Codierung der Physikalischen Ebe- mit dem Speicher verbunden sind. Genauso besitzt ne benutzt wird. Bei PCI Express hingegen wan- der Chipsatz weitere nicht n¨aher spezifizierte Busse delt diese 8 Bit Nutzdaten in 10 Bit codierte Da- zur Verbindung zu Ein/Ausgabe Ger¨aten. ten um und erzeugt somit schon einen unumg¨ang- QickPath benutzt 20 differentielle Signalleitungen lichen Overhead von 20%. Naturlich¨ ist die Lei- und zus¨atzlich eine Taktleitung. Dabei werden stungsf¨ahigkeit eines Bus-systems nicht nur durch immer nur 16 Bits zum gleichzeitigen Datentrans- den Overhead der Pakete beschr¨ankt, doch gibt fer genutzt, die restlichen 4 Bits werden fur¨ den dies einen guten Einblick, wie viele Bits zus¨atzlich Overhead genutzt. Im Gegensatz zu HyperTrans- zu den eigentlichen Daten mit ubertragen¨ werden port steht bei QuickPath die Breite des Busses mussen¨ und damit die Datenubertragung¨ bremsen. fest und ist nicht flexibel. Gleiches gilt fur¨ die Des Weiteren
Recommended publications
  • Supermicro GPU Solutions Optimized for NVIDIA Nvlink
    SuperServers Optimized For NVIDIA® Tesla® GPUs Maximizing Throughput and Scalability 16 Tesla® V100 GPUs With NVLink™ and NVSwitch™ Most Powerful Solution for Deep Learning Training • New Supermicro NVIDIA® HGX-2 based platform • 16 Tesla® V100 SXM3 GPUs (512GB total GPU memory) • 16 NICs for GPUDirect RDMA • 16 hot-swap NVMe drive bays • Fully configurable to order SYS-9029GP-TNVRT 8 Tesla® V100 GPUs With NVLink™ 4 Tesla® V100 GPUs With NVLink™ SYS-1029GQ-TVRT SYS-4029GP-TVRT www.supermicro.com/GPU March 2019 Maximum Acceleration for AI/DL Training Workloads PERFORMANCE: Highest Parallel peak performance with NVIDIA Tesla V100 GPUs THROUGHPUT: Best in class GPU-to-GPU bandwidth with a maximum speed of 300GB/s SCALABILITY: Designed for direct interconections between multiple GPU nodes FLEXIBILITY: PCI-E 3.0 x16 for low latency I/O expansion capacity & GPU Direct RDMA support DESIGN: Optimized GPU cooling for highest sustained parallel computing performance EFFICIENCY: Redundant Titanium Level power supplies & intelligent cooling control Model SYS-1029GQ-TVRT SYS-4029GP-TVRT • Dual Intel® Xeon® Scalable processors with 3 UPI up to • Dual Intel® Xeon® Scalable processors with 3 UPI up to 10.4GT/s CPU Support 10.4GT/s • Supports up to 205W TDP CPU • Supports up to 205W TDP CPU • 8 NVIDIA® Tesla® V100 GPUs • 4 NVIDIA Tesla V100 GPUs • NVIDIA® NVLink™ GPU Interconnect up to 300GB/s GPU Support • NVIDIA® NVLink™ GPU Interconnect up to 300GB/s • Optimized for GPUDirect RDMA • Optimized for GPUDirect RDMA • Independent CPU and GPU thermal zones
    [Show full text]
  • High Performance Computing and AI Solutions Portfolio
    Brochure High Performance Computing and AI Solutions Portfolio Technology and expertise to help you accelerate discovery and innovation Discovery and innovation have always started with great minds Go ahead. dreaming big. As artificial intelligence (AI), high performance computing (HPC) and data analytics continue to converge and Dream big. evolve, they are fueling the next industrial revolution and the next quantum leap in human progress. And with the help of increasingly powerful technology, you can dream even bigger. Dell Technologies will be there every step of the way with the technology you need to power tomorrow’s discoveries and the expertise to bring it all together, today. 463 exabytes The convergence of HPC and AI is driven by data. The data‑driven age is dramatically reshaping industries and reinventing the future. As of data will be created each day by 20251 vast amounts of data pour in from increasingly diverse sources, leveraging that data is both critical and transformational. Whether you’re working to save lives, understand the universe, build better machines, neutralize financial risks or anticipate customer sentiment, 44X ROI data informs and drives decisions that impact the success of your organization — and Average return on investment (ROI) shapes the future of our world. for HPC2 AI, HPC and data analytics are technologies designed to unlock the value of your data. While they have long been treated as separate, the three technologies are converging as 83% of CIOs it becomes clear that analytics and AI are both big‑data problems that require the power, Say they are investing in AI scalable compute, networking and storage provided by HPC.
    [Show full text]
  • BRKIOT-2394.Pdf
    Unlocking the Mystery of Machine Learning and Big Data Analytics Robert Barton Jerome Henry Distinguished Architect Principal Engineer @MrRobbarto Office of the CTAO CCIE #6660 @wirelessccie CCDE #2013::6 CCIE #24750 CWNE #45 BRKIOT-2394 Cisco Webex Teams Questions? Use Cisco Webex Teams to chat with the speaker after the session How 1 Find this session in the Cisco Events Mobile App 2 Click “Join the Discussion” 3 Install Webex Teams or go directly to the team space 4 Enter messages/questions in the team space BRKIOT-2394 © 2020 Cisco and/or its affiliates. All rights reserved. Cisco Public 3 Tuesday, Jan. 28th Monday, Jan. 27th Wednesday, Jan. 29th BRKIOT-2600 BRKIOT-2213 16:45 Enabling OT-IT collaboration by 17:00 From Zero to IOx Hero transforming traditional industrial TECIOT-2400 networks to modern IoT Architectures IoT Fundamentals 08:45 BRKIOT-1618 Bootcamp 14:45 Industrial IoT Network Management PSOIOT-1156 16:00 using Cisco Industrial Network Director Securing Industrial – A Deep Dive. Networks: Introduction to Cisco Cyber Vision PSOIOT-2155 Enhancing the Commuter 13:30 BRKIOT-1775 Experience - Service Wireless technologies and 14:30 BRKIOT-2698 BRKIOT-1520 Provider WiFi at the Use Cases in Industrial IOT Industrial IoT Routing – Connectivity 12:15 Cisco Remote & Mobile Asset speed of Trains and Beyond Solutions PSOIOT-2197 Cisco Innovates Autonomous 14:00 TECIOT-2000 Vehicles & Roadways w/ IoT BRKIOT-2497 BRKIOT-2900 Understanding Cisco's 14:30 IoT Solutions for Smart Cities and 11:00 Automating the Network of Internet Of Things (IOT) BRKIOT-2108 Communities Industrial Automation Solutions Connected Factory Architecture Theory and 11:00 Practice PSOIOT-2100 BRKIOT-1291 Unlock New Market 16:15 Opening Keynote 09:00 08:30 Opportunities with LoRaWAN for IOT Enterprises Embedded Cisco services Technologies IOT IOT IOT Track #CLEMEA www.ciscolive.com/emea/learn/technology-tracks.html Cisco Live Thursday, Jan.
    [Show full text]
  • Hypertransport Extending Technology Leadership
    HyperTransport Extending Technology Leadership International HyperTransport Symposium 2009 February 11, 2009 Mario Cavalli General Manager HyperTransport Technology Consortium Copyright HyperTransport Consortium 2009 HyperTransport Extending Technology Leadership HyperTransport and Consortium Snapshot Industry Status and Trends HyperTransport Leadership Role February 11, 2009 Mario Cavalli General Manager HyperTransport Technology Consortium Copyright HyperTransport Consortium 2009 HyperTransport Snapshot Low Latency, High Bandwidth, High Efficiency Point-to-Point Interconnect Leadership CPU-to-I/O CPU-to-CPU CPU-to-Coprocessor Copyright HyperTransport Consortium 2009 Adopted by Industry Leaders in Widest Range of Applications than Any Other Interconnect Technology Copyright HyperTransport Consortium 2009 Snapshot Formed 2001 Controls, Licenses, Promotes HyperTransport as Royalty-Free Open Standard World Technology Leaders among Commercial and Academic Members Newly Elected President Mike Uhler VP Accelerated Computing Advanced Micro Devices Copyright HyperTransport Consortium 2009 Industry Status and Trends Copyright HyperTransport Consortium 2009 Global Economic Downturn Tough State of Affairs for All Industries Consumer Markets Crippled with Long-Term to Recovery Commercial Markets Strongly Impacted Copyright HyperTransport Consortium 2009 Consequent Business Focus Cost Effectiveness No Redundancy Frugality Copyright HyperTransport Consortium 2009 Downturn Breeds Opportunities Reinforced Need for More Optimized, Cost-Effective Computing
    [Show full text]
  • NVIDIA Gpudirect RDMA (GDR) Host Memory Host Memory • Pipeline Through Host for Large Msg 2 IB IB 4 2
    Efficient and Scalable Communication Middleware for Emerging Dense-GPU Clusters Ching-Hsiang Chu Advisor: Dhabaleswar K. Panda Network Based Computing Lab Department of Computer Science and Engineering The Ohio State University, Columbus, OH Outline • Introduction • Problem Statement • Detailed Description and Results • Broader Impact on the HPC Community • Expected Contributions Network Based Computing Laboratory SC 19 Doctoral Showcase 2 Trends in Modern HPC Architecture: Heterogeneous Multi/ Many-core High Performance Interconnects Accelerators / Coprocessors SSD, NVMe-SSD, Processors InfiniBand, Omni-Path, EFA high compute density, NVRAM <1usec latency, 100Gbps+ Bandwidth high performance/watt Node local storage • Multi-core/many-core technologies • High Performance Storage and Compute devices • High Performance Interconnects • Variety of programming models (MPI, PGAS, MPI+X) #1 Summit #2 Sierra (17,280 GPUs) #8 ABCI #22 DGX SuperPOD (27,648 GPUs) #10 Lassen (2,664 GPUs) (4,352 GPUs) (1,536 GPUs) Network Based Computing Laboratory SC 19 Doctoral Showcase 3 Trends in Modern Large-scale Dense-GPU Systems • Scale-up (up to 150 GB/s) • Scale-out (up to 25 GB/s) – PCIe, NVLink/NVSwitch – InfiniBand, Omni-path, Ethernet – Infinity Fabric, Gen-Z, CXL – Cray Slingshot Network Based Computing Laboratory SC 19 Doctoral Showcase 4 GPU-enabled HPC Applications Lattice Quantum Chromodynamics Weather Simulation Wave propagation simulation Fuhrer O, Osuna C, Lapillonne X, Gysi T, Bianco M, Schulthess T. Towards GPU-accelerated operational weather
    [Show full text]
  • Dell EMC Poweredge C4140 Technical Guide
    Dell EMC PowerEdge C4140 Technical Guide Regulatory Model: E53S Series Regulatory Type: E53S001 Notes, cautions, and warnings NOTE: A NOTE indicates important information that helps you make better use of your product. CAUTION: A CAUTION indicates either potential damage to hardware or loss of data and tells you how to avoid the problem. WARNING: A WARNING indicates a potential for property damage, personal injury, or death. © 2017 - 2019 Dell Inc. or its subsidiaries. All rights reserved. Dell, EMC, and other trademarks are trademarks of Dell Inc. or its subsidiaries. Other trademarks may be trademarks of their respective owners. 2019 - 09 Rev. A00 Contents 1 System overview ......................................................................................................................... 5 Introduction............................................................................................................................................................................ 5 New technologies.................................................................................................................................................................. 5 2 System features...........................................................................................................................7 Specifications......................................................................................................................................................................... 7 Product comparison.............................................................................................................................................................
    [Show full text]
  • HPE Apollo 6500 Gen10 System Overview
    QuickSpecs HPE Apollo 6500 Gen10 System Overview HPE Apollo 6500 Gen10 System The ability of computers to autonomously learn, predict, and adapt using massive datasets is driving innovation and competitive advantage across many industries and applications. The HPE Apollo 6500 Gen10 System is an ideal HPC and Deep Learning platform providing unprecedented performance with industry leading GPUs, fast GPU interconnect, high bandwidth fabric and a configurable GPU topology to match your workloads. The system with rock-solid RAS features (reliable, available, secure) includes up to eight high power GPUs per server tray (node), NVLink 2.0 for fast GPU-to-GPU communication, Intel® Xeon® Scalable Processors support, choice of up to four high-speed / low latency fabric adapters, and the ability to optimize your configurations to match your workload and choice of GPU. And while the HPE Apollo 6500 Gen10 System is ideal for deep learning workloads, the system is suitable for complex high performance computing workloads such as simulation and modeling. Eight GPU per server for faster and more economical deep learning system training compared to more servers with fewer GPU each. Keep your researchers productive as they iterate on a model more rapidly for a better solution, in less time. Now available with NVLink 2.0 to connect GPUs at up to 300 GB/s for the world’s most powerful computing servers. HPC and AI models that would consume days or weeks can now be trained in a few hours or minutes. Front View –with two HPE DL38X Gen10 Premium 6 SFF SAS/SATA + 2 NVMe drive cages shown 1.
    [Show full text]
  • A Unified Memory Network Architecture for In-Memory
    A Unified Memory Network Architecture for In-Memory Computing in Commodity Servers Jia Zhan∗, Itir Akgun∗, Jishen Zhao†, Al Davis‡, Paolo Faraboschi‡, Yuangang Wang§, and Yuan Xie∗ ∗University of California, Santa Barbara †University of California, Santa Cruz ‡HP Labs §Huawei Abstract—In-memory computing is emerging as a promising largely residing in main memory, they also pose significant paradigm in commodity servers to accelerate data-intensive challenges in DRAM scaling, especially for memory capacity. processing by striving to keep the entire dataset in DRAM. To If the large dataset cannot fit entirely in memory, it has to address the tremendous pressure on the main memory system, discrete memory modules can be networked together to form a be spilled to disk, thus causing sub-optimal performance due memory pool, enabled by recent trends towards richer memory to disk I/O contention. Unfortunately, with the current DDRx interfaces (e.g. Hybrid Memory Cubes, or HMCs). Such an inter- based memory architecture, the scaling of DRAM capacity memory network provides a scalable fabric to expand memory falls far behind the growth of dataset size of in-memory capacity, but still suffers from long multi-hop latency, limited computing applications [12]. A straightforward approach to bandwidth, and high power consumption—problems that will continue to exacerbate as the gap between interconnect and increase memory capacity is to add more CPU sockets for transistor performance grows. Moreover, inside each memory additional memory channels. However, this will introduce module, an intra-memory network (NoC) is typically employed to significant hardware cost [13]. Moreover, in a multi-socket connect different memory partitions.
    [Show full text]
  • The Computer That Could Be Smarter Than Us Cognitive Computing
    outthink limits The Computer that could be smarter than us Cognitive Computing Ingolf Wittmann Technical Director Leader of HPC Kinetica - Unstructured Databases What is Kinetica? Unparalleled acceleration Kinetica’s in-memory database powered by graphics processing units (GPUs) was built from the ground up to deliver truly real-time insights on data in 2.5x motion: orders of magnitude faster Bandwidth performance (potentially 100, 1000X) at 100100 ticktick QueryQuery Time:Time: CompetingCompeting SystemSystem PCI-EPCI-E x16x16 3.03.0 10% to 25% of the cost of traditional An industry first — POWER8 with data platforms. NVIDIA NVLink delivers 2.5X the Calculation* bandwidth to GPU accelerators, Data Transfer allowing you to experience Kinetica at 73 ticks 27 ticks the speed it was intended compared to x86 based systems. What are the Key Markets? 65% Reduction • Retail: Inventory Mgt, BI, Apps, Big Data tools, HPA Real-time results • Distribution / Logistics : Supply Chain Data Transfer Calculation* Mgt 26 ticks 14 ticks • Financial Services : Fraud Detection, AML 4040 ticktick QueryQuery Time:Time: S822LCS822LC forfor HPC,HPC, NVLinkNVLink 10x • Ad-Tech : More Targeted Marketing * Includes non-overlapping: CPU, GPU, and idle times. Performance • IoT : End Point Management, RFID With the unique capabilities of Tesla 65% reduction in data transfer time (3X improvement) in for P100 + POWER8, Kinetica has 2.4x POWER8 with NVLink the performance of competing Kinetica GPU-accelerated DB PCIe x16 3.0/x86 System System systems enabling you to analyze and • Less data-induced latency in all applications Xeon E5-2640 v4 Power Systems S822LC visualize large datasets in • with 4 Tesla K80s : Unique to POWER8 with NVLink with 4 Tesla P100s: milliseconds vs.
    [Show full text]
  • NVIDIA Geforce RTX 2080 User Guide | 3 Introduction
    2080 TABLE OF CONTENTS 01 INTRODUCTION ..................................................................................... 3 About This Guide ................................................................................................................................ 3 Minimum System Requirements ....................................................................................................... 4 02 UNPACKING .......................................................................................... 5 Equipment .......................................................................................................................................... 6 03 Hardware Installation ............................................................................. 7 Safety Instructions ............................................................................................................................. 7 Before You Begin ................................................................................................................................ 8 Installing the GeForce Graphics Card ............................................................................................... 8 04 SOFTWARE INSTALLATION ................................................................... 12 GeForce Experience Software Installation ...................................................................................... 12 05 CONFIGURING NVLink ......................................................................... 14 06 CONFIGURING HDMI ...........................................................................
    [Show full text]
  • Introduction to AGP-8X
    W H I T E P A P E R Introduction to AGP-8X Allan Chen Jessie Johnson Angel Suhrstedt ADVANCED MICRO DEVICES, INC. One AMD Place Sunnyvale, CA 94088 Page 1 Introduction to AGP-8X May 10, 2002 W H I T E P A P E R Background Tremendous efforts have been made to improve computing system performance through increases in CPU processing power; however, I/O bottlenecks throughout the computing platform can limit the system performance. To eliminate system bottlenecks, AMD has been working with industry leaders to implement innovative technologies including AGP, DDR SDRAM, USB2.0, and HyperTransport™ technology. This white paper will provide an overview of the latest graphics subsystem innovation: AGP-8X. Introduction The Accelerated Graphics Port (AGP) was developed as a high-performance graphics interface. It alleviates the PCI graphics bottleneck by providing high bandwidth throughput and direct access to system memory. The new AGP3.0 specification adds an 8X mode definition, which doubles the maximum data transfer rate from the previous high reached with AGP-4X by doubling the amount of data transferred per AGP bus cycle. Figure 1 shows the graphic interface bandwidth performance evolution from PCI to AGP-8X. In this figure, AGP3.0 refers to the specific AGP interface specification. AGP-1X, AGP-2X, AGP-4X and AGP-8X represent the data transfer speed mode. Graphics Interface Peak Bandwidth 2500 2000 1500 1000 Bandwidth (MB/s) 500 0 PCI AGP1X AGP2X AGP4X AGP8X AGP 1.0 Specification AGP 2.0 Specification AGP 3.0 Specification Figure 1: Available bandwidth of different graphic interfaces.
    [Show full text]
  • NVIDIA Geforce RTX 2080 User Guide | 3 Introduction
    2080 TABLE OF CONTENTS 01 INTRODUCTION ..................................................................................... 3 About This Guide ................................................................................................................................ 3 Minimum System Requirements ....................................................................................................... 4 02 UNPACKING .......................................................................................... 5 Equipment .......................................................................................................................................... 6 03 Hardware Installation ............................................................................. 7 Safety Instructions ............................................................................................................................. 7 Before You Begin ................................................................................................................................ 8 Installing the GeForce Graphics Card ............................................................................................... 8 04 SOFTWARE INSTALLATION ................................................................... 12 GeForce Experience Software Installation ...................................................................................... 12 05 CONFIGURING NVLink ......................................................................... 14 06 CONFIGURING HDMI ...........................................................................
    [Show full text]