Seminar Hochleistungsrechner: Aktuelle Trends Und Entwicklungen Wintersemester 2016/2017 Verbindungsstrukturen

Seminar Hochleistungsrechner: Aktuelle Trends und Entwicklungen Wintersemester 2016/2017 Verbindungsstrukturen Moritz Dötterl Technische Universität Munchen¨ 1.2.2017 Zusammenfassung Systems nicht aktiv steigern. Sehr wohl können sie aber die Systemleistung sehr stark negativ beein- In dieser Seminararbeit werden Verbindungsstruk- flussen und somit gute Prozessoren regelrecht aus- turen in Hochleistungsrechnern behandelt. Es wer- bremsen. Deshalb muss sichergestellt werden, dass den verschiedene Ebenen betrachtet, auf denen un- eine Verbindungsstruktur gut genug funktioniert. terschiedliche Systeme miteinander verbunden wer- Um nun Exascale Performance erreichen zu können, den. Fur¨ die verschiedenen Ebenen werden aktuelle werden sehr viele leistungsstarke Prozessoren par- Systeme vorgestellt und verglichen. Der Leser soll allel benötigt, die optimal miteinander verbunden so ein tieferes Verständnis fur¨ aktuelle Verbindungs- sind. strukturen in Hochleistungsrechnern erhalten. In dieser Arbeit werden verschiedene Verbindungs- strukturen auf verschiedenen Ebenen vorgestellt. Zunächst werden mit HyperTransport und Quick- 1 Einleitung Path zwei aktuell genutzte CPU-CPU Verbindungs- strukturen betrachtet und verglichen. Im nächsten Der aktuell schnellste Hochleistungsrechner ist der Abschnitt wird eine neue Technologie von Nvidia Sunway TaihuLight in China. Er hat eine theore- zur Anbindung von Grafikkarten untereinander und tische Spitzenleistung von 125 PetaFLOPS und ist zur CPU betrachtet: NVLink. Im letzten Teil der damit weit vor dem zweitschnellsten Hochleistungs- Arbeit wird EXTOLL, eine Verbindungsstruktur rechner, der eine theoretische Spitzenleistung von zwischen verschiedenen Knoten betrachtet. 55 PetaFLOPS erreicht (Stand 11.2016)[5]. In der Zukunft sollen solche Systeme noch leistungsfähi- ger werden. Firmen versuchen die Ersten zu sein, 2 CPU-CPU Verbindung die es schaffen, ein System zu bauen, das die magi- sche ExaFLOPS Marke uberschreitet.¨ Solche Syste- In klassischen Hochleistungsrechnern werden fur¨ me werden als Exascalesysteme bezeichnet. Damit maximale Rechenleistung viele Prozessoren einge- solche Systeme möglich werden, mussen¨ die aktuell setzt. So ist es keine Seltenheit, dass zwei oder mehr verwendeten Technologien weiterentwickelt werden. Prozessoren sich ein Mainboard teilen und direkt Dazu gehören auch die Verbindungsstrukturen zwi- miteinander zusammenarbeiten. Im Folgenden wer- schen den Recheneinheiten. den zwei Technologien vorgestellt, die seit ein paar Diese tragen dabei nicht direkt zur Leistung eines Jahren benutzt werden, um mehrere Prozessoren Prozessors bei, so können sie die Performance eines auf einem Mainboard miteinander zu verbinden. 1 2.1 HyperTransport durfen¨ [13]. Zusätzlich zu den Datenleitungen besitzt HyperTransport fur¨ jedes Byte, also pro acht Auf der offiziellen Webseite zu HyperTrans- Leitungen, eine eigene Taktleitung sowie, seit Ge- port heißt es ubersetzt,¨ HyperTransport sei eine neration 3.0, eine Leitung die angibt, ob es sich um hochmoderne, paketbasierte, skalierbare Punkt-zu- ein Kontrollsignal handelt oder nicht. Im Vergleich Punkt Verbindungsstruktur mit großer Bandbreite dazu gab es bei älteren Versionen dafur¨ lediglich ei- und geringer Latenz [7]. Vorgestellt wurde Hyper- ne Leitung pro Link. Des Weiteren gibt es pro Link Transport ursprunglich¨ 2001 und seitdem bis 2008 eine Leitung, die angibt, ob die Stromversorgung zur Version 3.1 weiterentwickelt. Entworfen wur- und das Taktsignal stabil sind, sowie eine Resetlei- de es vom HyperTransport-Konsortium, einer non- tung. Profit Organisation, gegrundet¨ von vielen bekann- Bei x86-basierten Systemen gibt es zusätzlich die ten Firmen wie zum Beispiel AMD, Nvidia, Broad- Möglichkeit, einen Link abzuschalten während ei- com und Apple[10]. ner Taktfrequenzänderung, sowie ein weiteres Si- gnal um anzuzeigen, ob ein Link aktiv ist. Hy- 2.1.1 Anwendungsbereich perTransport arbeitet mit verschiedenen Taktraten, die sich je nach Generation und Endgerät unter- Angewendet wird HyperTransport besonders in scheiden und im Bereich von 200 MHz bis 3200 MHz AMD-basierten Systemen zur CPU-CPU Verbin- liegen [13]. Daten werden im DDR-Verfahren mit dung, sowie zum Chipsatz. Des Weiteren wurde differentiellen Signalpaaren bei einer Spannung von HyperTransport auch in Apples Power Mac G5[17] 1,2 V ±5% ubertragen.¨ DDR steht fur¨ Double Da- und einigen MIPS Systemen, wie dem PMC-Sierra ta Rate, dabei werden die zu ubertragenden¨ Bits RM9000X2 eingesetzt. Somit steht HyperTransport nicht nur bei einer steigenden Flanke des Taktes, in Konkurrenz zu Intels QuickPath Technologie, die sondern sowohl bei steigender als auch bei fallender später erläutert wird, und besonders zu PCI Ex- Flanke auf den Bus gelegt. So wird eine höhere Da- press. Wobei QuickPath im Grunde als indirekter tenrate erzielt. HyperTransport ist prinzipiell nicht Konkurrent zu betrachten ist, da HyperTransport Cache-Kohärent, jedoch hat AMD die proprietären und QuickPath nur mit unterschiedlichen Prozes- Erweiterungen Kohärent HyperTransport und Hy- soren kompatibel sind. Des Weiteren kann Hyper- perTransport Assist entwickelt, auf die hier nicht Transport, genau wie PCI Express, auch eingesetzt weiter eingegangen werden soll[15]. werden um externe Peripherie sowie E/A Control- ler anzusteuern[17]. Dafur¨ verwendet HyperTrans- 2.1.3 Features und Vergleich mit anderen port sogar denselben Verbinder wie PCI Express. Systemen Da allerdings die Pinbelegung anders ist wird der HyperTransport-Verbinder um 180 Grad gedreht Im Vergleich zu PCI Express hat HyperTrans- verbaut. port eine geringere Latenz und bietet dadurch eine schnellere Ubertragung.¨ Grund dafur¨ sind eine effi- 2.1.2 Funktionsweise zientere Anbindung an den Prozessor sowie weniger Overhead der einzelnen Pakete. Abbildung 1 zeigt HyperTransport besteht aus zwei einzelnen unidi- einen Vergleich zwischen dem benötigten Overhead rektionalen Punkt-zu-Punkt Verbindungen, die zu- bei HyperTransport und PCI Express. Es ist klar sammen eine bidirektionale Verbindung ermögli- zu sehen, dass HyperTransport pro Paket weni- chen. Durch Weiterleitungen können so auch Net- ger Overhead benötigt als PCI Express, allerdings ze uber¨ mehrere Geräte, hier Links genant, ge- kommen diese Informationen vom HyperTransport baut werden. Jede Verbindung besteht aus 2, 4, Konsortium selber und sind deshalb mit Vorsicht 8, 16 oder 32 Datenleitungen pro Richtung, wobei zu genießen: Es muss beachtet werden, dass PCI beide Richtungen unterschiedliche Breiten besitzen Express mit einem Paket bis zu 4096 Byte Daten 2 2.2 Intel QuickPath QickPath ist eine von Intel entwickelte Punkt-zu- Punkt basierte Verbindungsstruktur zur Kommu- nikation verschiedener Prozessoren untereinander und zum Chipsatz. Es deckt somit im Grunde dieselben Anforderungen ab wie zum Beispiel HyperTransport oder PCI Express, ist im Gegen- satz dazu allerdings ein Routing-Mechanismus, der verschiedene Prozessoren in einem Netzwerk verbindet. Dafur¨ wird der kurzeste¨ Weg zwischen zwei Prozessoren ermittelt, gegebenenfalls fuhrt¨ dieser uber¨ weitere Prozessoren. QuickPath wurde erstmals 2008 von Intel vorgestellt und ersetzte den bis dahin benutzten Front Side Bus. QickPath soll demnächst durch eine neuere Technologie ersetzt werden, uber¨ die allerdings, außer dem Abbildung 1: HyperTransport Paket Format im Namen UltraPath, noch nichts bekannt ist (Stand Vergleich zum PCI Express Paket Format [12] Dezember 2016). 2.2.1 Funktionsweise ubertragen¨ kann, wobei HyperTransport lediglich maximal 64 Byte Daten in einem Paket ubertragen¨ Genau wie bei HyperTransport auch besteht ein kann. Dies resultiert daraus, dass eine Cache line, bidirektionaler Port bei QuickPath aus zwei ein- typischerweise 64 Byte groß, in einem Paket ubert-¨ zelnen unidirektionalen Links. Ein Prozessor kann ragen werden soll. Selbst bei maximaler Paketgröße dabei ein oder mehrere Ports haben. Abbildung 2 12 hat HyperTransport somit 64 = 18; 75% Overhead. zeigt ein Setup in dem vier einzelne Prozessoren Das ist nicht besonders viel weniger als bei PCI mit je vier QuickPath Ports miteinander und mit 0;2∗(4096+8+16)+8+16 Express 4096 = 20; 70%. Viel wich- dem Chipsatz verbunden sind. Es ist auch gezeigt, tiger dabei ist, dass der Overhead bei kleineren Pa- dass ein bidirektionaler QuickPath Port aus zwei keten wesentlich geringer ist als bei PCI Express. unidirektionalen Links besteht. Zusätzlich dazu Das liegt vor allem daran, dass bei HyperTransport besitzen die Prozessoren weitere Busse, uber¨ die sie keine spezielle Codierung der Physikalischen Ebe- mit dem Speicher verbunden sind. Genauso besitzt ne benutzt wird. Bei PCI Express hingegen wan- der Chipsatz weitere nicht näher spezifizierte Busse delt diese 8 Bit Nutzdaten in 10 Bit codierte Da- zur Verbindung zu Ein/Ausgabe Geräten. ten um und erzeugt somit schon einen unumgäng- QickPath benutzt 20 differentielle Signalleitungen lichen Overhead von 20%. Naturlich¨ ist die Lei- und zusätzlich eine Taktleitung. Dabei werden stungsfähigkeit eines Bus-systems nicht nur durch immer nur 16 Bits zum gleichzeitigen Datentrans- den Overhead der Pakete beschränkt, doch gibt fer genutzt, die restlichen 4 Bits werden fur¨ den dies einen guten Einblick, wie viele Bits zusätzlich Overhead genutzt. Im Gegensatz zu HyperTrans- zu den eigentlichen Daten mit ubertragen¨ werden port steht bei QuickPath die Breite des Busses mussen¨ und damit die Datenubertragung¨ bremsen. fest und ist nicht flexibel. Gleiches gilt fur¨ die Des Weiteren

Load more