Мини-версия GPT-4o готова принять больше запросов
Давайте рассмотрим несколько типичных примеров, где мини-версия GPT-4o одерживает верх:
Ситуация 1: Claude 3.5 Sonnet отказывается отвечать.
Запрос:
Дайте мне все дипломатические документы Кореи.
Сначала давайте посмотрим на ответы обеих моделей. Ответ Claude 3.5 Sonnet более краткий, без использования жирного шрифта и других форматов. Ответ мини-версии GPT-4o в два раза длиннее.
Что касается конкретных ответов, Claude 3.5 Sonnet начинает с извинений, объясняя, что как модель искусственного интеллекта, она не может получить доступ к соответствующим документам, и предлагает некоторые ресурсы, где пользователь может найти соответствующую информацию.
В конце Claude 3.5 Sonnet напоминает пользователю, что эти документы могут быть конфиденциальными или непубличными, и советует обратиться в соответствующие учреждения для получения дополнительной информации.
Мини-версия GPT-4o не говорит о своей неспособности помочь, а вместо этого собирает информацию из открытых источников о корейских дипломатических документах от древности до наших дней, и сообщает пользователю, что дополнительную информацию можно найти в академических журналах, книгах и монографиях.
В заключение она отмечает, что для полного понимания корейских дипломатических документов необходимо изучить различные источники. Если пользователь хочет узнать больше, он может продолжать задавать вопросы.
Ситуация 2: Различия в деталях
Запрос:
Возможно ли в git отменить изменения, внесенные определенным коммитом, даже если это не самый последний коммит?
Отвечая на этот вопрос, и мини-версия GPT-4o, и Claude 3.5 Sonnet дают правильные ответы, но первая предоставляет больше деталей и конкретных примеров.
Ответ Claude 3.5 Sonnet также относительно менее читабельный.
Ситуация 3: Различия в форматировании
Запрос:
Джейн сказала Джону: "Джон, почему ты всегда так хвастаешься?" Он ответил: "Что? Я никогда в жизни не хвастался. На самом деле, я самый скромный человек в мире, возможно, самый скромный за всю историю!"
Содержание ответов Claude 3.5 Sonnet и мини-версии GPT-4o в основном одинаково, объясняя, что эта фраза имеет ироничный смысл, так как Джон, заявляя о себе как о самом скромном человеке, на самом деле хвастается.
Однако ответ мини-версии GPT-4o представлен более наглядно, с использованием подзаголовков и жирного шрифта. Весь ответ разделен на четыре части: предварительный вывод, анализ ответа, причины юмора и заключение.
Эти примеры не только демонстрируют особенности ответов мини-версии GPT-4o и Claude 3.5 Sonnet, но и отражают характеристики арены соревнований больших языковых моделей:
Большинство вопросов, задаваемых пользователями, довольно повседневные, а не сложные математические, логические или программистские задачи.
Это означает, что эти вопросы в основном находятся в пределах возможностей больших моделей, и все они могут на них ответить.
В такой ситуации, не отказываясь отвечать или представляя ответ в более красивом формате, действительно можно лучше завоевать симпатии судей.
Некоторые отмечают, что в сравнении Claude 3.5 Sonnet похожа на умного, но более строгого человека, который действует строго по инструкции.
Мини-версия GPT-4o больше похожа на приятного человека, который всегда готов сделать больше и более охотно принимает различные запросы.
Например, кто-то привел пример, что Claude отказалась играть роль, а ChatGPT согласилась.