马斯克披露特斯拉AI超级计算机Dojo:性能可媲美8000块英伟达H100

特斯拉Dojo超级计算机:为AI进步奠定基础,助力全自动驾驶技术突破。

马斯克近期表示,随着特斯拉准备在10月推出Robotaxi,AI团队将"加倍投入"Dojo超算。Dojo是特斯拉AI的基石,专为训练FSD神经网络而打造。

马斯克最近参观了特斯拉在德州超级工厂的超级计算机集群。他称这将是一个拥有约10万个H100/H200 GPU,并配备大规模存储的系统,用于全自动驾驶(FSD)和Optimus机器人的视频训练。除了英伟达GPU,这个超算集群还配备了特斯拉HW4、AI5、Dojo系统,由一个高达500兆瓦的大型系统提供电力和冷却。

马斯克透露,特斯拉在AI训练系统中不仅使用英伟达的GPU,还使用自己的AI计算机Tesla HW4 AI(更名为AI4),比例大约为1:2。这意味着相当于有大约9万个H100,加上大约4万个AI4计算机。到今年年底,Dojo 1将拥有大约8000个相当于H100算力。

预计Dojo的总计算能力将在2024年10月达到100 exaflops。假设一个D1芯片可以实现362 teraflops,要达到100 exaflops,特斯拉将需要超过27.6万个D1芯片,或者超过32万英伟达A100 GPU。

D1芯片于2021年特斯拉AI Day首次亮相,拥有500亿晶体管,只有巴掌大小。今年5月,D1芯片开始投产,采用台积电7nm工艺节点。为了获得更高的带宽和算力,特斯拉AI团队将25个D1芯片融合到一个tile中,将其作为一个统一的计算机系统运作。每个tile拥有9 petaflops的算力,以及每秒36 TB的带宽。

6个tile构成一个机架(rack),两个机架构成一个机柜(cabinet)。十个机柜构成一个ExaPOD。Dojo将通过部署多个ExaPOD进行扩展,所有这些加在一起构成了超级计算机。

晶圆级处理器(如特斯拉的Dojo和Cerebras的晶圆级引擎WSE)比多处理器的性能效率要高得多。然而,将25个芯片放在一起对电压挑战和冷却系统也是不小的挑战。特斯拉正在德州建设巨型冷却系统。

此外,特斯拉还在研发下一代Dojo芯片。