Musk revela detalles sobre la supercomputadora de IA de Tesla, Dojo: rendimiento comparable a 8000 NVIDIA H100

Tesla Dojo supercomputadora: sienta las bases para el avance de la IA y ayuda a lograr avances en la tecnología de conducción totalmente autónoma.

Musk ha indicado recientemente que, a medida que Tesla se prepara para lanzar Robotaxi en octubre, el equipo de IA "duplicará sus esfuerzos" en la supercomputadora Dojo. Dojo es la piedra angular de la IA de Tesla, diseñada específicamente para entrenar redes neuronales FSD.

Musk visitó recientemente el clúster de supercomputadoras de Tesla en la Gigafábrica de Texas. Describió que será un sistema con alrededor de 100,000 GPUs H100/H200 y almacenamiento masivo para el entrenamiento de video de conducción totalmente autónoma (FSD) y robots Optimus. Además de las GPUs de NVIDIA, este clúster de supercomputadoras también está equipado con sistemas Tesla HW4, AI5 y Dojo, alimentados por un sistema masivo de hasta 500 megavatios para energía y refrigeración.

Musk reveló que Tesla utiliza no solo GPUs de NVIDIA en sus sistemas de entrenamiento de IA, sino también sus propias computadoras de IA Tesla HW4 AI (renombradas como AI4), en una proporción de aproximadamente 1:2. Esto significa que hay el equivalente a unos 90,000 H100, más unas 40,000 computadoras AI4. Para finales de este año, Dojo 1 tendrá alrededor de 8,000 equivalentes de potencia de cálculo H100.

Se espera que la capacidad de cálculo total de Dojo alcance los 100 exaflops en octubre de 2024. Suponiendo que un chip D1 puede lograr 362 teraflops, Tesla necesitaría más de 276,000 chips D1, o más de 320,000 GPUs NVIDIA A100 para alcanzar los 100 exaflops.

El chip D1 se presentó por primera vez en el Tesla AI Day de 2021, con 50 mil millones de transistores y del tamaño de la palma de la mano. En mayo de este año, el chip D1 entró en producción utilizando el nodo de proceso de 7nm de TSMC. Para obtener mayor ancho de banda y potencia de cálculo, el equipo de IA de Tesla fusionó 25 chips D1 en un tile, operando como un sistema informático unificado. Cada tile tiene 9 petaflops de potencia de cálculo y 36 TB de ancho de banda por segundo.

Seis tiles forman un rack, y dos racks forman un gabinete. Diez gabinetes forman un ExaPOD. Dojo se escalará mediante la implementación de múltiples ExaPODs, todo lo cual se suma para formar la supercomputadora.

Los procesadores a nivel de oblea (como el Dojo de Tesla y el motor a nivel de oblea WSE de Cerebras) son mucho más eficientes en rendimiento que los multiprocesadores. Sin embargo, juntar 25 chips también presenta desafíos significativos para el voltaje y el sistema de enfriamiento. Tesla está construyendo un sistema de enfriamiento masivo en Texas.

Además, Tesla también está desarrollando la próxima generación de chips Dojo.