馬斯克揭秘特斯拉AI超算Dojo:性能堪比8000塊英偉達H100

特斯拉Dojo超級電腦:為AI進步奠定基礎,助力全自動駕駛技術突破。

馬斯克近期表示,隨著特斯拉準備在10月推出Robotaxi,AI團隊將「加倍投入」Dojo超算。Dojo是特斯拉AI的基石,專為訓練FSD神經網絡而打造。

馬斯克最近參觀了特斯拉在德州超級工廠的超級計算機集群。他稱這將是一個擁有約10萬個H100/H200 GPU,並配備大規模存儲的系統,用於全自動駕駛(FSD)和Optimus機器人的視頻訓練。除了英偉達GPU,這個超算集群還配備了特斯拉HW4、AI5、Dojo系統,由一個高達500兆瓦的大型系統提供電力和冷卻。

馬斯克透露,特斯拉在AI訓練系統中不僅使用英偉達的GPU,還使用自己的AI計算機Tesla HW4 AI(更名為AI4),比例大約為1:2。這意味著相當於有大約9萬個H100,加上大約4萬個AI4計算機。到今年年底,Dojo 1將擁有大約8000個相當於H100算力。

預計Dojo的總計算能力將在2024年10月達到100 exaflops。假設一個D1芯片可以實現362 teraflops,要達到100 exaflops,特斯拉將需要超過27.6萬個D1芯片,或者超過32萬英偉達A100 GPU。

D1芯片於2021年特斯拉AI Day首次亮相,擁有500億晶體管,只有巴掌大小。今年5月,D1芯片開始投產,採用台積電7nm工藝節點。為了獲得更高的頻寬和算力,特斯拉AI團隊將25個D1芯片融合到一個tile中,將其作為一個統一的計算機系統運作。每個tile擁有9 petaflops的算力,以及每秒36 TB的頻寬。

6個tile構成一個機架(rack),兩個機架構成一個機櫃(cabinet)。十個機櫃構成一個ExaPOD。Dojo將通過部署多個ExaPOD進行擴展,所有這些加在一起構成了超級計算機。

晶圓級處理器(如特斯拉的Dojo和Cerebras的晶圓級引擎WSE)比多處理器的性能效率要高得多。然而,將25個芯片放在一起對電壓挑戰和冷卻系統也是不小的挑戰。特斯拉正在德州建設巨型冷卻系統。

此外,特斯拉還在研發下一代Dojo芯片。