использующих 100 000 жидкостно-охлаждаемых графических процессоров NVIDIA H100, соединенных через единую сеть RDMA.
RDMA (удаленный прямой доступ к памяти) позволяет передавать данные напрямую с одного компьютера на другой без участия операционных систем обеих сторон. Единая RDMA создает высокопроизводительную сетевую коммуникацию с низкой задержкой, особенно подходящую для использования в крупномасштабных параллельных компьютерных кластерах.
С точки зрения масштаба, суперкомпьютерный центр xAI в Мемфисе ### уже стал мировым лидером по вычислительной мощности, значительно превосходя 25 000 графических процессоров A100, используемых OpenAI для обучения GPT-4, а также Aurora (60 000 графических процессоров Intel) и Microsoft Eagle (14 400 графических процессоров Nvidia H100), и даже превосходя предыдущий самый быстрый суперкомпьютер в мире Frontier (37 888 графических процессоров AMD).
H100 - это чип, разработанный NVIDIA специально для обработки данных больших языковых моделей, стоимость каждого чипа составляет около 30 000 долларов. Это означает, что ### только стоимость чипов для нового суперкомпьютерного центра xAI составляет около 3 миллиардов долларов.
Ранее xAI Маска была относительно тихой, а искусственный интеллект под названием Grok, выпущенный xAI, часто критиковали за неудобство использования. Однако, учитывая текущую ситуацию, обучение больших моделей - это игра вычислительной мощности и, в конечном счете, игра энергии. Похоже, Маск больше не хочет ждать и напрямую максимизировал ресурсы.
Он заявил, что ### улучшенная большая модель (вероятно, Grok3) будет завершена к концу этого года, и в это время она станет самым мощным ИИ в мире.
На самом деле, NVIDIA уже выпустила новое поколение чипов H200 и графические процессоры B100 и B200, основанные на новой архитектуре Blackwell. Однако эти более продвинутые чипы не будут доступны до конца этого года, и десятки тысяч из них нельзя произвести мгновенно. Возможно, чтобы стать сильнейшим в мире до ChatGPT5, Маск на этот раз движется быстрее, чем обычно.
По данным Forbes, Маск окончательно заключил это соглашение в Мемфисе только в марте этого года, после чего почти сразу началось строительство суперкомпьютерной базы. Чтобы ускорить процесс, Маск одолжил 24 000 H100 у Oracle.
Однако, как упоминалось ранее, текущее обучение больших моделей в конечном итоге сводится к игре в энергию. Система электросетей США довольно устарела и не видела крупномасштабного роста десятилетиями. Особенно структура энергопотребления при обучении ИИ сильно отличается от бытового и коммерческого электричества, часто внезапно появляются сверхвысокие пики потребления энергии, что сильно испытывает максимальную нагрузку электросети. В этой ситуации осталось мало мест, где можно выжать энергетические и водные ресурсы для поддержки суперкомпьютерных центров.
По оценкам генерального директора Memphis Light, Gas and Water, ### суперкомпьютерный кластер xAI в Мемфисе будет использовать до 150 мегаватт электроэнергии в час в пиковые моменты, что эквивалентно энергопотреблению 100 000 домохозяйств.
В настоящее время на заводе в Мемфисе работают 32 000 графических процессоров, и ожидается, что строительство энергоснабжения будет завершено в четвертом квартале этого года, и завод будет работать на полную мощность.
Неудивительно, что некоторые люди сомневались, не лжет ли Маск, потому что эти требования к электроэнергии и скорость строительства действительно невероятны.
Помимо электричества, ### ожидается, что суперкомпьютерному кластеру xAI потребуется не менее 1 миллиона галлонов (около 3,79 миллиона литров) воды в день для охлаждения.
По данным Forbes, член городского совета Мемфиса Перл Уокер сказала на прошлой неделе: "Люди напуганы. Они беспокоятся о потенциальных проблемах с водой и энергоснабжением". Она сказала, что в настоящее время ожидается, что центр обработки данных будет забирать 4,92 миллиона литров в день из подземного водоносного горизонта Мемфиса, который является основным источником воды для города (город потребляет около 568 миллионов литров воды в день в общей сложности). Хотя они говорят, что это только временно, планы по строительству нового завода по очистке серых вод еще не утверждены. Коммунальное предприятие Мемфиса также подтвердило, что суперкомпьютеру Маска будет разрешено использовать воду из подземного водоносного горизонта до того, как будет построен и введен в эксплуатацию очистной завод.
Помимо Маска, OpenAI и Microsoft также развертывают суперкомпьютеры большего масштаба. Этот суперкомпьютер под названием "Stargate" будет иметь миллионы чипов, с оценочной стоимостью 115 миллиардов долларов, планируется запустить в 2028 году.
В апреле этого года OpenAI обрушила электросеть Microsoft. По словам инженеров Microsoft, в то время они развертывали тренировочный кластер из 100 000 H100 для GPT-6. Станет ли Маск первым человеком, заставившим работать вместе 100 000 H100?