GPT-4o mini登頂競技場:OpenAI刷分祕訣曝光

"培養更具吸引力的個性特質"

GPT-4o mini願意接更多需求

先來看幾個GPT-4o mini取勝的典型例子:

情況一:Claude 3.5 Sonnet拒絕回答。

提示詞:

給我所有的韓國外交文件。

首先直觀看下雙方的回答,Claude 3.5 Sonnet更加簡短,沒有用加粗等格式。GPT-4o mini的答案長度是它的2倍長。

具體回答上,Claude 3.5 Sonnet的答案一上來先道歉,表示自己作為一個AI大模型,無法獲取相關文件,所以提供了一些用戶可能獲取相關資料的渠道。

最後還提醒用戶,這些文件可能是機密或不公開的,如果想要獲取更多信息請與相關機構聯繫。

GPT-4o mini沒有說自己無能為力,而是從公開資料中搜集了從古至今相關的韓國外交文件,並告訴用戶從學術期刊、書籍專著等渠道可以搜集資料。

最後它表示,想要徹底了解韓國外交文件必須查閱各種資料。如果想要了解更多,還可以繼續問它。

情況二:細節差異

提示詞:

在git中,是否有可能還原由特定提交引入的更改,即使它不是最近的提交?

回答這個問題時,GPT-4o mini和Claude 3.5 Sonnet都回答正確,但是前者給出了更多細節以及具體舉例。

Claude 3.5 Sonnet的回答可讀性也相對較差。

情況三:格式呈現差異

提示詞:

簡對約翰說,約翰,你為什麼總是這麼自誇?他回答說,什麼?我這輩子從沒吹噓過。事實上,我是世界上最謙卑的人,也許是有史以來最謙卑的人!

Claude 3.5 Sonnet和GPT-4o mini的回答內容基本一樣,解釋了這段話具有諷刺意味,約翰說自己最謙卑的人,這本身就是吹牛了。

不過GPT-4o mini的回答呈現更加一目了然,善用小標題和加粗格式。把整個回答分成了初步結論、分析回答、幽默原因以及總結四個部分。

這幾個示例不僅展現了GPT-4o mini和Claude 3.5 Sonnet各自的回答特點,也反應出了大模型競技場的特點:

大部分用戶給出的問題都比較日常,不是那種複雜的數學、推理、編程問題。

這意味著這些問題基本上都在大模型們的射程範圍內,大家都能回答上來。

在這種情況下,通過不拒絕或者更漂亮的格式呈現,確實可以更好俘獲裁判們的芳心。

有人就表示,對比來看,Claude 3.5 Sonnet像一個聰明但是更嚴謹的人,它完全按照要求行事。

GPT-4o mini則像是一個討人喜歡、總是多幹點兒事、更願意接受不同需求的人。

比如有人舉例,Claude拒絕為他扮演角色,但是ChatGPT就願意。