GPT-4 столкнулся с сильным соперником: новая модель Google превосходит, ChatGPT призывает к спокойствию

Google принадлежащая крупная языковая модель впервые заняла первое место в авторитетной оценке, что ознаменовало значительный прорыв в области искусственного интеллекта. Это достижение не только демонстрирует силу Google в технологии ИИ, но и указывает на возможные изменения в конкурентной ситуации среди крупных моделей.

Gemini 1.5 Pro (0801) представляет собой первую победу Google в арене lmsys. (Также первое место в китайских задачах)

Более того, на этот раз это двойная корона, помимо общего рейтинга (единственный балл выше 1300), он также занимает первое место в ### визуальном рейтинге.

Ключевая фигура команды Gemini, Саймон Токумине, опубликовал сообщение, празднуя:

(Эта новая модель) - самая мощная и умная Gemini, которую мы когда-либо создавали.

Один пользователь Reddit также назвал модель "очень хорошей" и выразил надежду, что ее функциональность не будет урезана.

Еще больше пользователей с восторгом заявили, что OpenAI наконец-то получила вызов и должна выпустить новую версию, чтобы дать отпор!

Официальный аккаунт ChatGPT также намекнул на что-то.

На фоне всеобщего ажиотажа руководитель продукта Google AI Studio объявил, что модель вступает в ### фазу бесплатного тестирования:

Доступно для бесплатного использования в AI studio

### Пользователи: Google наконец-то пришел!

Строго говоря, Gemini 1.5 Pro (0801) на самом деле не считается новой моделью.

Эта ### экспериментальная версия основана на Gemini 1.5 Pro, выпущенной Google в феврале, позже серия 1.5 расширила контекстное окно до 2 миллионов.

По мере обновления модели это название становится все длиннее, что также вызвало волну насмешек.

Вот, сотрудник OpenAI, поздравляя, не упустил возможности подколоть:

Конечно, хотя название трудно запомнить, Gemini 1.5 Pro (0801) показал впечатляющие результаты в официальном тестировании арены.

Общая тепловая карта побед показывает, что он превзошел GPT-4o на 54% и Claude 3.5 Sonnet на 59%.

В ### тестах многоязычных способностей он занял первое место по китайскому, японскому, немецкому и русскому языкам.

Однако в Coding и Hard Prompt Arena он все еще не может победить таких соперников, как Claude 3.5 Sonnet, GPT-4o и Llama 405B.

Этот момент также подвергся критике со стороны пользователей, что в переводе означает:

Кодирование - самое важное, но он плохо справляется с этим.

Однако некоторые люди вышли, чтобы прорекламировать ### функции извлечения изображений и PDF Gemini 1.5 Pro (0801).

Элвис, соучредитель DAIR.AI, лично провел полный набор тестов на YouTube и подвел итог:

Визуальные способности очень близки к GPT-4o.

Кроме того, некоторые люди использовали Gemini 1.5 Pro (0801) для решения вопросов, на которые ранее плохо отвечал Claude 3.5 Sonet.

В результате оказалось, что он не только показал себя лучше, но и победил своего коллегу Gemini 1.5 Flash.

Однако, некоторые ### классические тесты на здравый смысл он все еще не может пройти, например, "написать десять предложений, заканчивающихся на яблоко".

### Еще кое-что

Тем временем серия Google Gemma 2 приветствует новую ### модель с 20 миллиардами параметров.

Gemma 2 (2B) ### готова к использованию прямо из коробки и может работать на бесплатном GPU T4 в Google Colab.

В рейтинге арены она ### превзошла все модели GPT-3.5 и даже превзошла Mixtral-8x7b.

Перед лицом серии новых рейтингов, достигнутых Google, ### авторитетность рейтинга арены снова подверглась сомнению со стороны общественности.

Текниум (известный игрок в области обучения после тонкой настройки), соучредитель Nous Research, опубликовал пост с предупреждением:

Хотя Gemma 2 (2B) набирает более высокие баллы в арене, чем GPT-3.5 Turbo, она намного ниже последней в MMLU. Такое расхождение вызывает беспокойство, если люди используют рейтинг арены как единственный показатель производительности модели.

Бинду Редди, генеральный директор Abacus.AI, даже прямо призвал:

Пожалуйста, немедленно прекратите использовать этот рейтинг человеческой оценки! Claude 3.5 Sonnet намного лучше, чем GPT-4o-mini. Аналогично, Gemini/Gemma не должны набирать так много баллов в этом рейтинге.

Итак, считаете ли вы, что этот метод анонимного голосования людей все еще надежен? (Приглашаем к обсуждению в комментариях)

Ссылки:

[1]https://x.com/lmsysorg/status/1819048821294547441