Больше уверенности в самостоятельно построенных кластерах
В мае The Information сообщила, что Маск планировал построить суперкомпьютерный кластер с 100 000 H100 к осени 2025 года, сотрудничая с Oracle. Сообщалось, что xAI инвестирует 10 миллиардов долларов в аренду серверов Oracle.
Недавно Маск прокомментировал новости о прекращении сотрудничества по суперкомпьютерному кластеру с Oracle. Он заявил, что xAI получила ресурсы для 24 000 H100 от Oracle для обучения Grok-2, подтвердив продолжающееся сотрудничество по аренде серверов между xAI и Oracle.
Однако для кластера из 100 000 GPU H100 они решили построить его самостоятельно и продвигались с максимальной скоростью, якобы завершив установку 100 000 карт всего за 19 дней.
Dell и Supermicro стали новыми партнерами Маска. Генеральные директора обеих компаний недавно выразили в Twitter, что они сотрудничают, сопроводив это фотографиями центра обработки данных.
Маск лично посетил площадку во время процесса строительства кластера. Он также раскрыл в Twitter, что Grok обучается в Мемфисе, а Grok-2 будет выпущен в августе.
Примечательно, что Oracle ранее высказывала опасения по поводу электроснабжения для местоположения кластера. По оценкам, 100 000 H100 требуют 150 мегаватт мощности, выделенной из сети, но Маск, похоже, решил эту проблему.
Последние новости указывают, что кластер в настоящее время имеет 8 мегаватт. После подписания соглашения 1 августа у них будет 50 мегаватт. Сейчас онлайн 32 000 карт, ожидается, что 100% будут онлайн в четвертом квартале - достаточно для поддержки обучения и запуска моделей масштаба GPT-5.
В заключение, гиганты ИИ считают, что иметь вычислительные мощности в собственных руках надежнее, стоит сжигать наличные ради этого. По оценкам, стоимость каждого H100 составляет около 30 000-40 000 долларов. Суперкомпьютерный кластер Маска оценивается в 4 миллиарда долларов (более 29 миллиардов рублей).
Ранее сообщалось, что Microsoft и OpenAI планировали проект центра обработки данных стоимостью 100 миллиардов долларов под названием "Stargate". Инсайдеры раскрыли, что Oracle и Microsoft достигают соглашения, включающего 100 000 GPU B200, причем кластер может быть готов к следующему лету.
Кроме того, ходили слухи, что у Meta есть роскошный суперкомпьютерный кластер, в то время как облачные провайдеры, такие как AWS, инвестируют еще больше в центры обработки данных.