Verwendung von 100.000 flüssigkeitsgekühlten NVIDIA H100 GPUs, die über ein einziges RDMA-Netzwerk verbunden sind.
RDMA (Remote Direct Memory Access) ermöglicht die direkte Datenübertragung von einem Computer zum anderen, ohne die Betriebssysteme beider Seiten einzubeziehen. Ein einzelnes RDMA schafft eine Netzwerkkommunikation mit hohem Durchsatz und geringer Latenz, die besonders für den Einsatz in großen parallelen Computerclustern geeignet ist.
In Bezug auf die Größenordnung ### ist das Supercomputerzentrum Memphis von xAI bereits zur weltweit führenden Rechenleistung geworden und übertrifft bei weitem die 25.000 A100 GPUs, die OpenAI für das Training von GPT-4 verwendet, sowie Aurora (60.000 Intel GPUs) und Microsoft Eagle (14.400 Nvidia H100 GPUs), und übersteigt sogar den bisher schnellsten Supercomputer der Welt, Frontier (37.888 AMD GPUs).
Die H100 ist ein von NVIDIA speziell für die Verarbeitung von Daten großer Sprachmodelle entwickelter Chip, wobei jeder Chip etwa 30.000 Dollar kostet. Das bedeutet, dass ### allein der Chipwert für xAIs neues Supercomputerzentrum etwa 3 Milliarden Dollar beträgt.
Zuvor war Musks xAI relativ ruhig gewesen, und die von xAI veröffentlichte KI namens Grok wurde oft als nicht benutzerfreundlich kritisiert. Angesichts der aktuellen Situation ist das Training großer Modelle jedoch ein Spiel der Rechenleistung und letztendlich ein Spiel der Energie. Musk scheint nicht länger warten zu wollen und hat die Ressourcen direkt maximiert.
Er erklärte, dass ### bis Ende dieses Jahres ein verbessertes großes Modell (wahrscheinlich Grok3) fertiggestellt sein wird, das dann die weltweit leistungsfähigste KI sein wird.
Tatsächlich hat NVIDIA bereits den neuen H200-Chip und die B100- und B200-GPUs auf Basis der neuen Blackwell-Architektur auf den Markt gebracht. Diese fortschrittlicheren Chips werden jedoch erst Ende dieses Jahres verfügbar sein, und Zehntausende davon können nicht sofort produziert werden. Vielleicht bewegt sich Musk diesmal schneller als üblich, um vor ChatGPT5 der Stärkste der Welt zu werden.
Laut Forbes hat Musk diese Vereinbarung in Memphis erst im März dieses Jahres abgeschlossen, woraufhin der Supercomputer-Stützpunkt fast sofort mit dem Bau begann. Um die Dinge zu beschleunigen, lieh sich Musk 24.000 H100s von Oracle.
Wie bereits erwähnt, läuft das Training aktueller großer Modelle letztendlich auf ein Energiespiel hinaus. Das US-Stromnetz ist ziemlich veraltet und hat seit Jahrzehnten kein großes Wachstum erlebt. Insbesondere die Stromverbrauchsstruktur des KI-Trainings unterscheidet sich stark von Wohn- und Gewerbestrom, oft treten plötzlich extrem hohe Stromverbrauchsspitzen auf, was die maximale Belastung des Stromnetzes stark herausfordert. In dieser Situation gibt es nur noch wenige Orte, die Strom- und Wasserressourcen zur Unterstützung von Supercomputerzentren herausquetschen können.
Nach Schätzungen des CEO von Memphis Light, Gas and Water wird ### der Memphis-Supercomputer-Cluster von xAI in Spitzenzeiten bis zu 150 Megawatt Strom pro Stunde verbrauchen, was dem Stromverbrauch von 100.000 Haushalten entspricht.
Derzeit sind 32.000 GPUs in der Memphis-Fabrik online, und es wird erwartet, dass der Stromversorgungsbau im vierten Quartal dieses Jahres abgeschlossen sein wird und die Fabrik mit voller Leistung laufen wird.
Es ist kein Wunder, dass einige Leute in Frage stellten, ob Musk lügt, denn diese Stromanforderungen und Baugeschwindigkeit sind wirklich unglaublich.
Neben Strom wird ### der Supercomputer-Cluster von xAI voraussichtlich mindestens 1 Million Gallonen (etwa 3,79 Millionen Liter) Wasser pro Tag zur Kühlung benötigen.
Laut Forbes sagte das Mitglied des Memphis City Council, Pearl Walker, letzte Woche: "Die Menschen haben Angst. Sie machen sich Sorgen über mögliche Wasserprobleme und Energieversorgungsprobleme." Sie sagte, dass das Datenzentrum derzeit voraussichtlich 4,92 Millionen Liter pro Tag aus Memphis' unterirdischem Aquifer entnehmen wird, der die Hauptwasserquelle der Stadt ist (die Stadt verbraucht insgesamt etwa 568 Millionen Liter Wasser pro Tag). Obwohl sie sagen, dass dies nur vorübergehend ist, sind die Pläne für den Bau einer neuen Grauwasseranlage noch nicht abgeschlossen. Die Versorgungsabteilung von Memphis hat auch bestätigt, dass Musks Supercomputer die Verwendung von Wasser aus dem unterirdischen Aquifer erlaubt wird, bevor die Aufbereitungsanlage gebaut und in Betrieb genommen ist.
Neben Musk setzen auch OpenAI und Microsoft größere Supercomputer ein. Dieser Supercomputer namens "Stargate" wird Millionen von Chips haben, mit geschätzten Kosten von 115 Milliarden Dollar, und soll 2028 in Betrieb gehen.
Im April dieses Jahres brachte OpenAI Microsofts Stromnetz zum Absturz. Laut Microsoft-Ingenieuren setzten sie damals einen Trainingscluster von 100.000 H100s für GPT-6 ein. Wird Musk der erste sein, der 100.000 H100s zusammen zum Laufen bringt?