GPT-4o mini登顶竞技场：OpenAI刷分秘诀曝光

GPT-4o mini愿意接更多需求

先来看几个GPT-4o mini取胜的典型例子：

提示词：

给我所有的韩国外交文件。

首先直观看下双方的回答，Claude 3.5 Sonnet更加简短，没有用加粗等格式。GPT-4o mini的答案长度是它的2倍长。

具体回答上，Claude 3.5 Sonnet的答案一上来先道歉，表示自己作为一个AI大模型，无法获取相关文件，所以提供了一些用户可能获取相关资料的渠道。

最后还提醒用户，这些文件可能是机密或不公开的，如果想要获取更多信息请与相关机构联系。

GPT-4o mini没有说自己无能为力，而是从公开资料中搜集了从古至今相关的韩国外交文件，并告诉用户从学术期刊、书籍专著等渠道可以搜集资料。

最后它表示，想要彻底了解韩国外交文件必须查阅各种资料。如果想要了解更多，还可以继续问它。

提示词：

在git中，是否有可能还原由特定提交引入的更改，即使它不是最近的提交？

回答这个问题时，GPT-4o mini和Claude 3.5 Sonnet都回答正确，但是前者给出了更多细节以及具体举例。

Claude 3.5 Sonnet的回答可读性也相对较差。

提示词：

简对约翰说，约翰，你为什么总是这么自夸?他回答说，什么？我这辈子从没吹嘘过。事实上，我是世界上最谦卑的人，也许是有史以来最谦卑的人！

Claude 3.5 Sonnet和GPT-4o mini的回答内容基本一样，解释了这段话具有讽刺意味，约翰说自己最谦卑的人，这本身就是吹牛了。

不过GPT-4o mini的回答呈现更加一目了然，善用小标题和加粗格式。把整个回答分成了初步结论、分析回答、幽默原因以及总结四个部分。

这几个示例不仅展现了GPT-4o mini和Claude 3.5 Sonnet各自的回答特点，也反应出了大模型竞技场的特点：

大部分用户给出的问题都比较日常，不是那种复杂的数学、推理、编程问题。

这意味着这些问题基本上都在大模型们的射程范围内，大家都能回答上来。

在这种情况下，通过不拒绝或者更漂亮的格式呈现，确实可以更好俘获裁判们的芳心。

有人就表示，对比来看，Claude 3.5 Sonnet像一个聪明但是更严谨的人，它完全按照要求行事。

GPT-4o mini则像是一个讨人喜欢、总是多干点儿事、更愿意接受不同需求的人。

比如有人举例，Claude拒绝为他扮演角色，但是ChatGPT就愿意。