Musk dévoile le superordinateur IA Dojo de Tesla : des performances comparables à 8000 NVIDIA H100

Tesla Dojo superordinateur : jette les bases du progrès de l'IA et favorise les percées dans la technologie de conduite entièrement autonome.

Musk a récemment déclaré que, alors que Tesla se prépare à lancer le Robotaxi en octobre, l'équipe IA "redoublera d'efforts" sur le superordinateur Dojo. Dojo est la pierre angulaire de l'IA de Tesla, conçu spécifiquement pour entraîner les réseaux neuronaux FSD.

Musk a récemment visité le cluster de superordinateurs de Tesla dans la Gigafactory du Texas. Il a déclaré qu'il s'agira d'un système avec environ 100 000 GPU H100/H200 et un stockage massif pour l'entraînement vidéo de la conduite entièrement autonome (FSD) et du robot Optimus. En plus des GPU NVIDIA, ce cluster de superordinateurs est également équipé des systèmes Tesla HW4, AI5 et Dojo, alimenté et refroidi par un grand système de 500 mégawatts.

Musk a révélé que Tesla utilise non seulement les GPU de NVIDIA dans ses systèmes d'entraînement IA, mais aussi ses propres ordinateurs IA Tesla HW4 AI (renommés AI4), dans un rapport d'environ 1:2. Cela signifie qu'il y a l'équivalent d'environ 90 000 H100, plus environ 40 000 ordinateurs AI4. D'ici la fin de l'année, Dojo 1 aura environ 8 000 équivalents de puissance de calcul H100.

La puissance de calcul totale de Dojo devrait atteindre 100 exaflops en octobre 2024. En supposant qu'une puce D1 puisse atteindre 362 teraflops, Tesla aurait besoin de plus de 276 000 puces D1, ou plus de 320 000 GPU NVIDIA A100 pour atteindre 100 exaflops.

La puce D1 a été dévoilée pour la première fois lors de la Tesla AI Day en 2021, avec 50 milliards de transistors et la taille d'une paume. En mai de cette année, la production de la puce D1 a commencé, utilisant le nœud de processus 7nm de TSMC. Pour obtenir une bande passante et une puissance de calcul plus élevées, l'équipe IA de Tesla a fusionné 25 puces D1 en une seule tuile, fonctionnant comme un système informatique unifié. Chaque tuile a une puissance de calcul de 9 petaflops et une bande passante de 36 To par seconde.

Six tuiles forment un rack, et deux racks forment une armoire. Dix armoires forment un ExaPOD. Dojo s'étendra en déployant plusieurs ExaPOD, qui ensemble forment le superordinateur.

Les processeurs au niveau de la plaquette (comme le Dojo de Tesla et le moteur au niveau de la plaquette WSE de Cerebras) sont beaucoup plus efficaces en termes de performances que les multiprocesseurs. Cependant, regrouper 25 puces pose également des défis importants en termes de tension et de système de refroidissement. Tesla construit un système de refroidissement massif au Texas.

De plus, Tesla développe également la prochaine génération de puces Dojo.