Маск представил новую модель xAI: значительный прогресс, но не лидирующие позиции

"Прогресс Grok идет ракетными темпами." Так восторженно объявил Маск о появлении Grok-2 на X.

14 августа по местному времени xAI выпустила бета-версии двух моделей ИИ: Grok-2 и Grok-2mini. Grok-2 - это языковая модель компании с самыми сильными способностями к рассуждению, а облегченная модель Grok-2mini является "родственным продуктом" Grok-2, пытающимся достичь сильной функциональности при небольшом количестве параметров.

xAI заявила в своем блоге, что ранняя предварительная версия Grok-2 представляет собой значительный прогресс по сравнению с Grok-1.5, обладая передовыми возможностями в области чата, кодирования и рассуждений.

Компания утверждает, что ранняя версия Grok-2, протестированная под названием "sus-column-r", превзошла Claude 3.5 Sonnet от Anthropic и GPT-4-Turbo от OpenAI в рейтинге LMSYS. Рейтинг LMSYS основан на случайных анонимных "дуэлях" один на один между крупными языковыми моделями с использованием системы рейтинга ELO.

sus-column-r (ранняя версия Grok 2) теперь общедоступна и заняла 3-е место в общем рейтинге, сравнявшись с GPT-4o, набрав более 12000 голосов сообщества. Она заняла 2-е место в кодировании, 4-е место в сложных подсказках и 2-е место в математике.

xAI также протестировала взаимодействие Grok с новыми моделями через систему AI-наставников, при этом Grok-2 сосредоточился на оценке способностей модели в двух ключевых областях: следование инструкциям и предоставление точной, правдивой информации. Grok-2 продемонстрировал значительные улучшения в способности рассуждать о полученной информации и использовать инструменты, например, правильно идентифицировать отсутствующую информацию, рассуждать о последовательности событий и отбрасывать нерелевантные посты.

Кроме того, xAI оценила модель Grok-2 с помощью ряда академических тестов, включающих рассуждения, понимание прочитанного, математику, науку и кодирование. Компания заявляет, что "ее производительность сопоставима с другими передовыми моделями в таких областях, как научные знания на уровне аспирантуры, здравый смысл и задачи математических олимпиад".

Маск тесно связывает xAI с приобретенной им социальной сетью "X" - Grok-2 и Grok-2mini будут поддерживать расширенные функции поиска X, глубокое понимание постов и улучшенные функции ответов, хотя ранее xAI подвергалась критике за использование данных пользователей X для обучения.

Одним из главных моментов этого обновления является то, что модель Grok-2 может генерировать изображения на X, используя недавно ставшую популярной модель Flux.1, хотя в настоящее время это доступно только для пользователей Premium и Premium+ на X.

Поскольку функция генерации изображений Grok не имеет ограничений, многие пользователи уже использовали ее для создания изображений политических деятелей. Например, один пользователь использовал Grok-2 для создания изображения первого президента США Джорджа Вашингтона, и этот пост был даже ретвитнут Маском. Однако ChatGPT от OpenAI отказывается генерировать такие изображения, избегая политических рисков.

Стоит отметить, что Grok-2 и Grok-2mini в настоящее время все еще находятся на стадии тестирования. Компания ожидает, что обе модели будут доступны разработчикам через ее корпоративный API позже в этом месяце. Предстоящий API построен на новом настраиваемом технологическом стеке, позволяющем осуществлять многорегиональное развертывание для глобального доступа с низкой задержкой, предоставляя при этом расширенные функции безопасности, такие как обязательная многофакторная аутентификация, статистика трафика и расширенная аналитика выставления счетов.

После разрыва с OpenAI Маск предсказал, что общий искусственный интеллект будет достигнут к 2029 году, а конечной целью основанной им xAI является предоставление AI-продуктов потребителям, бизнесу и даже всем, превращая их в полезные инструменты. Он надеется использовать AI для помощи людям в решении сложных научных и математических задач и "понимания" вселенной.

Действия xAI также постоянно ускоряются. Компания провела свой первый раунд финансирования в январе 2024 года на сумму 135 миллионов долларов; в мае она завершила раунд B на сумму 6 миллиардов долларов, а оценка компании взлетела с 18 миллиардов долларов до 25 миллиардов долларов, став еще одним AI-единорогом в США.

В июле Маск заявил, что команда xAI начала обучение на "Мемфисском суперкластере". Этот кластер состоит из 100 000 жидкостно-охлаждаемых GPU H100, и цель состоит в том, чтобы к декабрю этого года обучить "самый мощный искусственный интеллект в мире по каждому показателю".

Его амбиции на этом не заканчиваются: он раскрыл планы xAI по созданию суперкомпьютера "суперфабрики вычислительной мощности", который, как ожидается, будет в четыре раза мощнее, чем у самого сильного конкурента на рынке.

Как "новичок" в области больших моделей, Маск считает, что xAI может принести новые прорывы и инновации в области искусственного интеллекта, подчеркивая при этом, что конкуренция способствует прогрессу всей отрасли, избегая создания однополярного мира, где одна компания доминирует в области искусственного интеллекта.

Однако, судя по двум недавно выпущенным моделям, они не демонстрируют инноваций, превосходящих отрасль, и все еще находятся в роли догоняющих. Чтобы Grok-2 мог выделиться в конкуренции с OpenAI, Google и другими технологическими компаниями, потребуется более сильный продукт.