對自建集群更有信心
五月時,The Information 報導馬斯克計劃與甲骨文合作,在 2025 年秋季前建立一個擁有 100,000 個 H100 的超級電腦集群。據說 xAI 將投資 100 億美元租用甲骨文的伺服器。
最近,馬斯克針對終止與甲骨文合作建立超級電腦集群的消息作出回應。他表示,xAI 從甲骨文獲得了 24,000 個 H100 的資源來訓練 Grok-2,確認了 xAI 與甲骨文之間持續的伺服器租賃合作。
然而,對於 100,000 個 H100 GPU 集群,他們選擇自行建設,並以最快速度推進,據報導在短短 19 天內就完成了 100,000 張卡的安裝。
戴爾和超微成為馬斯克的新合作夥伴。兩家公司的 CEO 最近在 Twitter 上表示他們正在合作,並附上了數據中心的照片。
馬斯克在集群建設過程中親自到現場視察。他還在 Twitter 上透露,Grok 正在孟菲斯進行訓練,Grok-2 將於八月發布。
值得注意的是,甲骨文此前曾對集群位置的電力供應表示擔憂。估計 100,000 個 H100 需要從電網分配 150 兆瓦的電力,但馬斯克似乎已解決了這個問題。
最新消息顯示,該集群目前擁有 8 兆瓦。在 8 月 1 日簽署協議後,他們將擁有 50 兆瓦。現在,32,000 張卡已上線,預計在第四季度 100% 上線 - 足以支持訓練和運行 GPT-5 規模的模型。
總之,AI 巨頭認為將算力掌握在自己手中更可靠,值得燒錢。估計每個 H100 的成本約為 30,000-40,000 美元。馬斯克的超級電腦集群價值 40 億美元(超過 290 億人民幣)。
早前報導稱,微軟和 OpenAI 計劃一個名為「Stargate」的 1,000 億美元數據中心項目。內部人士透露,甲骨文和微軟正在達成一項涉及 100,000 個 B200 GPU 的交易,該集群可能在明年夏天準備就緒。
此外,Meta 據傳擁有一個豪華的超級電腦集群,而像 AWS 這樣的雲端供應商在數據中心的投資更多。