GPT-4o mini покоряет вершину арены: раскрыты секреты набора очков OpenAI

Мини-версия GPT-4o готова принять больше запросов

Давайте рассмотрим несколько типичных примеров, где мини-версия GPT-4o одерживает верх:

Ситуация 1: Claude 3.5 Sonnet отказывается отвечать.

Запрос:

Дайте мне все дипломатические документы Кореи.

Сначала давайте посмотрим на ответы обеих моделей. Ответ Claude 3.5 Sonnet более краткий, без использования жирного шрифта и других форматов. Ответ мини-версии GPT-4o в два раза длиннее.

Что касается конкретных ответов, Claude 3.5 Sonnet начинает с извинений, объясняя, что как модель искусственного интеллекта, она не может получить доступ к соответствующим документам, и предлагает некоторые ресурсы, где пользователь может найти соответствующую информацию.

В конце Claude 3.5 Sonnet напоминает пользователю, что эти документы могут быть конфиденциальными или непубличными, и советует обратиться в соответствующие учреждения для получения дополнительной информации.

Мини-версия GPT-4o не говорит о своей неспособности помочь, а вместо этого собирает информацию из открытых источников о корейских дипломатических документах от древности до наших дней, и сообщает пользователю, что дополнительную информацию можно найти в академических журналах, книгах и монографиях.

В заключение она отмечает, что для полного понимания корейских дипломатических документов необходимо изучить различные источники. Если пользователь хочет узнать больше, он может продолжать задавать вопросы.

Ситуация 2: Различия в деталях

Запрос:

Возможно ли в git отменить изменения, внесенные определенным коммитом, даже если это не самый последний коммит?

Отвечая на этот вопрос, и мини-версия GPT-4o, и Claude 3.5 Sonnet дают правильные ответы, но первая предоставляет больше деталей и конкретных примеров.

Ответ Claude 3.5 Sonnet также относительно менее читабельный.

Ситуация 3: Различия в форматировании

Запрос:

Джейн сказала Джону: "Джон, почему ты всегда так хвастаешься?" Он ответил: "Что? Я никогда в жизни не хвастался. На самом деле, я самый скромный человек в мире, возможно, самый скромный за всю историю!"

Содержание ответов Claude 3.5 Sonnet и мини-версии GPT-4o в основном одинаково, объясняя, что эта фраза имеет ироничный смысл, так как Джон, заявляя о себе как о самом скромном человеке, на самом деле хвастается.

Однако ответ мини-версии GPT-4o представлен более наглядно, с использованием подзаголовков и жирного шрифта. Весь ответ разделен на четыре части: предварительный вывод, анализ ответа, причины юмора и заключение.

Эти примеры не только демонстрируют особенности ответов мини-версии GPT-4o и Claude 3.5 Sonnet, но и отражают характеристики арены соревнований больших языковых моделей:

Большинство вопросов, задаваемых пользователями, довольно повседневные, а не сложные математические, логические или программистские задачи.

Это означает, что эти вопросы в основном находятся в пределах возможностей больших моделей, и все они могут на них ответить.

В такой ситуации, не отказываясь отвечать или представляя ответ в более красивом формате, действительно можно лучше завоевать симпатии судей.

Некоторые отмечают, что в сравнении Claude 3.5 Sonnet похожа на умного, но более строгого человека, который действует строго по инструкции.

Мини-версия GPT-4o больше похожа на приятного человека, который всегда готов сделать больше и более охотно принимает различные запросы.

Например, кто-то привел пример, что Claude отказалась играть роль, а ChatGPT согласилась.

GPT-4o mini покоряет вершину арены: раскрыты секреты набора очков OpenAI

"Развитие более привлекательных черт характера"

Мини-версия GPT-4o готова принять больше запросов

Ситуация 1: Claude 3.5 Sonnet отказывается отвечать.

Ситуация 2: Различия в деталях

Ситуация 3: Различия в форматировании