Mehr Vertrauen in selbstgebaute Cluster
Im Mai berichtete The Information, dass Musk plane, bis Herbst 2025 in Zusammenarbeit mit Oracle einen Supercomputer-Cluster mit 100.000 H100s zu bauen. Es hieß, xAI würde 10 Milliarden Dollar investieren, um Oracles Server zu leasen.
Kürzlich äußerte sich Musk zu den Nachrichten über die Beendigung der Supercomputer-Cluster-Zusammenarbeit mit Oracle. Er erklärte, dass xAI Ressourcen für 24.000 H100s von Oracle erhalten habe, um Grok-2 zu trainieren, und bestätigte die laufende Server-Leasing-Kooperation zwischen xAI und Oracle.
Für den 100.000 H100 GPU-Cluster entschieden sie sich jedoch dafür, ihn selbst zu bauen und trieben dies mit höchster Geschwindigkeit voran. Berichten zufolge wurde die Installation von 100.000 Karten in nur 19 Tagen abgeschlossen.
Dell und Supermicro wurden Musks neue Partner. Die CEOs beider Unternehmen äußerten kürzlich auf Twitter, dass sie zusammenarbeiten, begleitet von Fotos aus Rechenzentren.
Musk besuchte persönlich den Standort während des Cluster-Aufbaus. Er enthüllte auch auf Twitter, dass Grok in Memphis trainiert wird und Grok-2 im August veröffentlicht wird.
Bemerkenswert ist, dass Oracle zuvor Bedenken hinsichtlich der Stromversorgung für den Cluster-Standort geäußert hatte. Schätzungen zufolge benötigen 100.000 H100s 150 Megawatt Strom aus dem Netz, aber Musk scheint dieses Problem gelöst zu haben.
Neueste Nachrichten deuten darauf hin, dass der Cluster derzeit über 8 Megawatt verfügt. Nach Unterzeichnung eines Abkommens am 1. August werden es 50 Megawatt sein. Jetzt sind 32.000 Karten online, im vierten Quartal sollen 100% online sein - ausreichend, um das Training und den Betrieb von Modellen im GPT-5-Maßstab zu unterstützen.
Zusammenfassend lässt sich sagen, dass KI-Giganten es für zuverlässiger halten, die Rechenleistung in den eigenen Händen zu haben, wofür es sich lohnt, Bargeld zu verbrennen. Geschätzte Kosten belaufen sich auf etwa 30.000-40.000 Dollar pro H100. Musks Supercomputer-Cluster wird auf 4 Milliarden Dollar (über 29 Milliarden RMB) geschätzt.
Frühere Berichte deuteten darauf hin, dass Microsoft und OpenAI ein 100-Milliarden-Dollar-Rechenzentrum-Projekt namens "Stargate" planten. Insider enthüllten, dass Oracle und Microsoft einen Deal über 100.000 B200 GPUs abschließen, wobei der Cluster möglicherweise bis nächsten Sommer bereit sein könnte.
Darüber hinaus gab es Gerüchte, dass Meta einen luxuriösen Supercomputer-Cluster besitzt, während Cloud-Anbieter wie AWS noch mehr in Rechenzentren investieren.