Musk hat kürzlich erklärt, dass das KI-Team "verdoppelte Anstrengungen" in den Dojo-Supercomputer investieren wird, während Tesla sich auf die Einführung des Robotaxis im Oktober vorbereitet. Dojo ist der Grundstein für Teslas KI und wurde speziell für das Training von FSD-Neuronalen Netzwerken entwickelt.
Musk besuchte kürzlich den Supercomputer-Cluster in Teslas Gigafactory in Texas. Er beschrieb es als ein System mit etwa 100.000 H100/H200 GPUs und massivem Speicher für Videotraining für vollautonomes Fahren (FSD) und Optimus-Roboter. Neben NVIDIA-GPUs ist dieser Supercomputer-Cluster auch mit Tesla HW4, AI5 und Dojo-Systemen ausgestattet und wird von einem großen 500-Megawatt-System mit Strom und Kühlung versorgt.
Musk enthüllte, dass Tesla in seinen KI-Trainingssystemen nicht nur NVIDIA-GPUs verwendet, sondern auch seine eigenen KI-Computer Tesla HW4 AI (umbenannt in AI4) im Verhältnis von etwa 1:2. Das bedeutet, dass es etwa 90.000 H100-Äquivalente plus etwa 40.000 AI4-Computer gibt. Bis Ende dieses Jahres wird Dojo 1 etwa 8.000 H100-Äquivalente an Rechenleistung haben.
Es wird erwartet, dass Dojos Gesamtrechenleistung im Oktober 2024 100 Exaflops erreichen wird. Angenommen, ein D1-Chip kann 362 Teraflops erreichen, würde Tesla über 276.000 D1-Chips oder über 320.000 NVIDIA A100 GPUs benötigen, um 100 Exaflops zu erreichen.
Der D1-Chip wurde erstmals am Tesla AI Day 2021 vorgestellt und verfügt über 50 Milliarden Transistoren bei der Größe einer Handfläche. Im Mai dieses Jahres ging der D1-Chip in Produktion und verwendet TSMCs 7nm-Prozessknoten. Um höhere Bandbreite und Rechenleistung zu erzielen, hat Teslas KI-Team 25 D1-Chips zu einem Tile verschmolzen, der als einheitliches Computersystem fungiert. Jeder Tile verfügt über 9 Petaflops Rechenleistung und 36 TB/s Bandbreite.
Sechs Tiles bilden ein Rack, zwei Racks bilden ein Cabinet. Zehn Cabinets bilden einen ExaPOD. Dojo wird durch den Einsatz mehrerer ExaPODs skaliert, die alle zusammen den Supercomputer bilden.
Wafer-Scale-Prozessoren (wie Teslas Dojo und Cerebras' Wafer-Scale Engine WSE) sind weitaus effizienter als Multi-Prozessoren. Allerdings stellt das Zusammenfügen von 25 Chips auch eine Herausforderung für die Spannung und das Kühlsystem dar. Tesla baut in Texas ein riesiges Kühlsystem.
Darüber hinaus entwickelt Tesla die nächste Generation von Dojo-Chips.