Маск раскрывает секреты суперкомпьютера Tesla AI Dojo: производительность сравнима с 8000 NVIDIA H100

Суперкомпьютер Tesla Dojo: закладывает основу для прогресса в области ИИ и способствует прорыву в технологии полностью автономного вождения.

Маск недавно заявил, что по мере подготовки Tesla к запуску Robotaxi в октябре, команда ИИ "удвоит усилия" по работе над суперкомпьютером Dojo. Dojo является краеугольным камнем ИИ Tesla, созданным специально для обучения нейронных сетей FSD.

Недавно Маск посетил кластер суперкомпьютеров Tesla на гигафабрике в Техасе. Он сказал, что это будет система с около 100 000 GPU H100/H200 и массивным хранилищем для обучения видео для полностью автономного вождения (FSD) и робота Optimus. Помимо GPU NVIDIA, этот суперкомпьютерный кластер также оснащен системами Tesla HW4, AI5 и Dojo, питаемыми и охлаждаемыми крупной системой мощностью до 500 мегаватт.

Маск раскрыл, что Tesla использует в своих системах обучения ИИ не только GPU NVIDIA, но и свои собственные AI-компьютеры Tesla HW4 AI (переименованные в AI4) в соотношении примерно 1:2. Это означает, что есть эквивалент около 90 000 H100 плюс около 40 000 компьютеров AI4. К концу этого года Dojo 1 будет иметь около 8000 эквивалентов вычислительной мощности H100.

Ожидается, что общая вычислительная мощность Dojo достигнет 100 экзафлопс к октябрю 2024 года. Предполагая, что один чип D1 может достичь 362 терафлопс, для достижения 100 экзафлопс Tesla потребуется более 276 000 чипов D1 или более 320 000 GPU NVIDIA A100.

Чип D1 был впервые представлен на Tesla AI Day в 2021 году, имеет 50 миллиардов транзисторов и размер с ладонь. В мае этого года началось производство чипов D1 с использованием 7-нм технологического процесса TSMC. Для достижения более высокой пропускной способности и вычислительной мощности команда ИИ Tesla объединила 25 чипов D1 в один тайл, работающий как единая компьютерная система. Каждый тайл имеет вычислительную мощность 9 петафлопс и пропускную способность 36 ТБ в секунду.

6 тайлов составляют одну стойку, две стойки составляют один шкаф. Десять шкафов составляют один ExaPOD. Dojo будет масштабироваться путем развертывания нескольких ExaPOD, все вместе составляющих суперкомпьютер.

Процессоры на уровне пластины (такие как Dojo от Tesla и WSE от Cerebras) гораздо более эффективны по производительности, чем многопроцессорные системы. Однако объединение 25 чипов вместе также представляет значительные проблемы для напряжения и систем охлаждения. Tesla строит гигантскую систему охлаждения в Техасе.

Кроме того, Tesla также разрабатывает чипы Dojo следующего поколения.