Gemini 1.5 Pro (0801) представляет собой первую победу Google в арене lmsys. (Также первое место в китайских задачах)
Более того, на этот раз это двойная корона, помимо общего рейтинга (единственный балл выше 1300), он также занимает первое место в ### визуальном рейтинге.
Ключевая фигура команды Gemini, Саймон Токумине, опубликовал сообщение, празднуя:
(Эта новая модель) - самая мощная и умная Gemini, которую мы когда-либо создавали.
Один пользователь Reddit также назвал модель "очень хорошей" и выразил надежду, что ее функциональность не будет урезана.
Еще больше пользователей с восторгом заявили, что OpenAI наконец-то получила вызов и должна выпустить новую версию, чтобы дать отпор!
Официальный аккаунт ChatGPT также намекнул на что-то.
На фоне всеобщего ажиотажа руководитель продукта Google AI Studio объявил, что модель вступает в ### фазу бесплатного тестирования:
Доступно для бесплатного использования в AI studio
### Пользователи: Google наконец-то пришел!
Строго говоря, Gemini 1.5 Pro (0801) на самом деле не считается новой моделью.
Эта ### экспериментальная версия основана на Gemini 1.5 Pro, выпущенной Google в феврале, позже серия 1.5 расширила контекстное окно до 2 миллионов.
По мере обновления модели это название становится все длиннее, что также вызвало волну насмешек.
Вот, сотрудник OpenAI, поздравляя, не упустил возможности подколоть:
Конечно, хотя название трудно запомнить, Gemini 1.5 Pro (0801) показал впечатляющие результаты в официальном тестировании арены.
Общая тепловая карта побед показывает, что он превзошел GPT-4o на 54% и Claude 3.5 Sonnet на 59%.
В ### тестах многоязычных способностей он занял первое место по китайскому, японскому, немецкому и русскому языкам.
Однако в Coding и Hard Prompt Arena он все еще не может победить таких соперников, как Claude 3.5 Sonnet, GPT-4o и Llama 405B.
Этот момент также подвергся критике со стороны пользователей, что в переводе означает:
Кодирование - самое важное, но он плохо справляется с этим.
Однако некоторые люди вышли, чтобы прорекламировать ### функции извлечения изображений и PDF Gemini 1.5 Pro (0801).
Элвис, соучредитель DAIR.AI, лично провел полный набор тестов на YouTube и подвел итог:
Визуальные способности очень близки к GPT-4o.
Кроме того, некоторые люди использовали Gemini 1.5 Pro (0801) для решения вопросов, на которые ранее плохо отвечал Claude 3.5 Sonet.
В результате оказалось, что он не только показал себя лучше, но и победил своего коллегу Gemini 1.5 Flash.
Однако, некоторые ### классические тесты на здравый смысл он все еще не может пройти, например, "написать десять предложений, заканчивающихся на яблоко".
### Еще кое-что
Тем временем серия Google Gemma 2 приветствует новую ### модель с 20 миллиардами параметров.
Gemma 2 (2B) ### готова к использованию прямо из коробки и может работать на бесплатном GPU T4 в Google Colab.
В рейтинге арены она ### превзошла все модели GPT-3.5 и даже превзошла Mixtral-8x7b.
Перед лицом серии новых рейтингов, достигнутых Google, ### авторитетность рейтинга арены снова подверглась сомнению со стороны общественности.
Текниум (известный игрок в области обучения после тонкой настройки), соучредитель Nous Research, опубликовал пост с предупреждением:
Хотя Gemma 2 (2B) набирает более высокие баллы в арене, чем GPT-3.5 Turbo, она намного ниже последней в MMLU. Такое расхождение вызывает беспокойство, если люди используют рейтинг арены как единственный показатель производительности модели.
Бинду Редди, генеральный директор Abacus.AI, даже прямо призвал:
Пожалуйста, немедленно прекратите использовать этот рейтинг человеческой оценки! Claude 3.5 Sonnet намного лучше, чем GPT-4o-mini. Аналогично, Gemini/Gemma не должны набирать так много баллов в этом рейтинге.
Итак, считаете ли вы, что этот метод анонимного голосования людей все еще надежен? (Приглашаем к обсуждению в комментариях)