ИИ-наставник и модель взаимодействуют в различных задачах, имитирующих реальные сценарии взаимодействия с Grok.
В каждом взаимодействии ИИ-наставник выбирает лучший из двух ответов, сгенерированных Grok, на основе установленных нами критериев оценки.
Результаты показывают, что по сравнению с Grok-2 mini и Grok-1.5, Grok-2 значительно улучшил способности рассуждения при работе с извлеченной информацией, а также навыки использования инструментов, такие как правильное определение отсутствующей информации, рассуждение через последовательности событий и исключение нерелевантного контента.
Судя по результатам тестирования, уровень Grok-2 в основном превосходит GPT-4 Turbo и Claude 3 Opus, и даже может конкурировать с GPT-4o и Llama 3-405B по производительности.
Однако в раскрытых xAI результатах тестирования есть некоторые "хитрости". Например, хотя утверждается, что он не уступает GPT-4o, используются оценки GPT-4o и GPT-4 Turbo за май, что вызывает подозрения в манипуляции временем для улучшения результатов.
Член команды xAI Гуодонг Чжан написал:
Интересно, что в отличие от большинства других компаний и лабораторий, мы развиваемся так быстро, что у нас никогда не было времени написать официальный технический отчет для каждой модели.
Кроме того, xAI особо отметила, что в тесте MMLU по масштабному многозадачному пониманию языка Grok-2 использовался без специальной подготовки к конкретным задачам, что более реалистично отражает способность модели к обобщению и адаптации к новым задачам. Проще говоря, ребята могут быть не лучшими, но они честны.
Теперь Grok-2 и Grok-2 mini будут постепенно интегрироваться в платформу X, и пользователи X Premium и Premium+ смогут опробовать эти две новые модели.
Официально заявлено, что Grok-2 обладает способностью понимать текст и визуальные данные, а также может в реальном времени интегрировать информацию с платформы X. Grok-2 mini делает акцент на компактности и изящности, достигая баланса между скоростью и качеством ответов.
По сравнению с предыдущим поколением, самое большое изменение в Grok-2 - это способность напрямую генерировать изображения. По информации от внутренних членов команды xAI, для генерации изображений используется недавно ставшая популярной модель FLUX.1.
Пользователи обнаружили, что Grok-2 имеет ограничения на количество генерируемых изображений: пользователи Premium, как ожидается, смогут создавать около 20-30 изображений, а пользователи Premium+ - больше.
Классическая головоломка "Что больше, 9.8 или 9.11" также не поставила Grok-2 в тупик. Он даже может посчитать, сколько букв "r" в слове "strawberry".
Взволнованный Маск неоднократно ретвитнул несколько постов о Grok 2, активно продвигая и рекламируя его, и высоко оценил скорость прогресса команды xAI.
Не смотря на рекламу, а оценивая эффективность, Grok-2 больше похож на новую модель, значение которой превышает ее практическую ценность. Ее выпуск означает, что вся индустрия ИИ начинает встречать новые модели уровня GPT-4, но, возможно, не принесла достаточно сюрпризов.
В апреле этого года в интервью с главой норвежского суверенного фонда Николаем Тангеном Маск заявил, что для обучения Grok-2 требуется около 20 000 H100.
А в прошлом месяце, во время подготовки к Grok-2, Маск также раскрыл, что для обучения Grok-3 использовалось 100 000 чипов NVIDIA H100, и ожидается, что он будет выпущен в конце года, став потенциально самой мощной моделью ИИ.
Для этого Маск даже не пожалел использовать чипы Tesla, чтобы усилить команду xAI, что вызвало недовольство инвесторов Tesla.
Стоит отметить, что на недавнем мероприятии X Space Маск по-прежнему полон оптимизма относительно будущего ИИ.