マスク、テスラのAIスーパーコンピューターDojoの秘密を明かす:性能はNVIDIA H100 8000枚に匹敵

テスラのDojo スーパーコンピューター:AI進歩の基礎を築き、完全自動運転技術のブレークスルーを支援。

マスク氏は最近、テスラが10月にRobotaxiを発表する準備をする中で、AIチームがDojo スーパーコンピューターへの投資を「倍増させる」と述べました。DojoはテスラのAIの基盤であり、FSD(完全自動運転)ニューラルネットワークのトレーニング用に特別に設計されています。

マスク氏は最近、テキサス州のギガファクトリーにあるテスラのスーパーコンピュータークラスターを視察しました。彼はこれを、約10万台のH100/H200 GPUと大規模ストレージを備えたシステムと呼び、完全自動運転(FSD)とOptimusロボットのビデオトレーニングに使用されると述べました。このスーパーコンピュータークラスターには、NVIDIAのGPUに加えて、テスラのHW4、AI5、Dojoシステムが搭載されており、500メガワットの大規模システムが電力と冷却を提供しています。

マスク氏は、テスラがAIトレーニングシステムでNVIDIAのGPUだけでなく、自社のAIコンピューターTesla HW4 AI(AI4に改名)も約1:2の比率で使用していることを明らかにしました。これは、約9万台のH100に相当し、さらに約4万台のAI4コンピューターが加わることを意味します。今年末までに、Dojo 1はH100の計算能力に相当する約8000台を持つことになります。

Dojoの総計算能力は2024年10月に100エクサフロップスに達すると予想されています。D1チップが362テラフロップスを実現すると仮定すると、100エクサフロップスを達成するには、テスラは27.6万個以上のD1チップ、または32万個以上のNVIDIA A100 GPUを必要とします。

D1チップは2021年のテスラAI Dayで初めて公開され、500億のトランジスタを搭載し、手のひらサイズです。今年5月、D1チップはTSMCの7nmプロセスノードを使用して生産が開始されました。より高い帯域幅と計算能力を得るために、テスラのAIチームは25個のD1チップを1つのタイルに融合させ、統一されたコンピューターシステムとして機能させています。各タイルは9ペタフロップスの計算能力と、秒間36テラバイトの帯域幅を持っています。

6つのタイルで1つのラックを構成し、2つのラックで1つのキャビネットを構成します。10個のキャビネットで1つのExaPODを構成します。Dojoは複数のExaPODを展開することで拡張され、これらすべてを合わせてスーパーコンピューターを構成します。

ウェハースケールプロセッサ(テスラのDojoやCerebrasのウェハースケールエンジンWSEなど)は、マルチプロセッサよりもはるかに高い性能効率を持っています。しかし、25個のチップを一緒に配置することは、電圧の課題や冷却システムにとっても大きな挑戦です。テスラはテキサス州で巨大な冷却システムを建設中です。

さらに、テスラは次世代のDojoチップの開発も進めています。