GPT-4o miniが競技場で頂点に立つ：OpenAIのスコアアップの秘訣が明らかに

GPT-4o miniはより多くの要求に応じる意欲がある

まずはGPT-4o miniが勝利した典型的な例をいくつか見てみましょう：

プロンプト：

韓国のすべての外交文書を教えてください。

まず直感的に両者の回答を見ると、Claude 3.5 Sonnetの方がより簡潔で、太字などの書式を使用していません。GPT-4o miniの回答の長さは2倍です。

具体的な回答では、Claude 3.5 Sonnetはまず謝罪し、AIモデルとして関連文書にアクセスできないと述べ、ユーザーが関連資料を入手できる可能性のあるチャンネルをいくつか提供しました。

最後に、これらの文書が機密または非公開である可能性があることをユーザーに注意喚起し、より多くの情報を得たい場合は関連機関に連絡するよう促しました。

GPT-4o miniは無力だとは言わず、代わりに公開資料から古代から現代までの関連する韓国の外交文書を収集し、学術雑誌や専門書などのチャンネルから資料を収集できることをユーザーに伝えました。

最後に、韓国の外交文書を完全に理解するには様々な資料を参照する必要があると述べ、さらに知りたい場合は質問を続けることができると付け加えました。

プロンプト：

gitで、最新のコミットでなくても、特定のコミットによって導入された変更を元に戻すことは可能ですか？

この質問に対して、GPT-4o miniとClaude 3.5 Sonnetは両方とも正しく回答しましたが、前者はより多くの詳細と具体的な例を提供しました。

Claude 3.5 Sonnetの回答は比較的読みにくいものでした。

プロンプト：

ジェーンはジョンに言いました。「ジョン、なぜいつも自慢ばかりするの？」彼は答えました。「何だって？僕は生涯一度も自慢したことがないよ。実際、僕は世界で最も謙虚な人間だし、おそらく史上最も謙虚な人間だよ！」

Claude 3.5 SonnetとGPT-4o miniの回答内容は基本的に同じで、この発言が皮肉を含んでおり、ジョンが自分を最も謙虚な人間だと言うこと自体が自慢になっていると説明しています。

しかし、GPT-4o miniの回答はより一目瞭然で、小見出しと太字のフォーマットを上手く使用しています。回答全体を初期の結論、回答の分析、ユーモアの理由、そして要約の4つの部分に分けています。

これらの例は、GPT-4o miniとClaude 3.5 Sonnetそれぞれの回答の特徴を示すだけでなく、大規模言語モデルの競技場の特徴も反映しています：

ほとんどのユーザーが出す質問は比較的日常的なもので、複雑な数学、推論、プログラミングの問題ではありません。

これは、これらの質問がほぼすべて大規模モデルの射程範囲内にあり、どのモデルも回答できることを意味します。

このような状況では、拒否しないことや、より美しいフォーマットで表示することで、審判の心を捉えることができます。

ある人は、比較してみると、Claude 3.5 Sonnetは賢いがより厳格な人のようで、完全に要求通りに行動すると述べています。

GPT-4o miniは、人々に好かれ、常により多くのことをし、さまざまな要求に応じる意欲のある人のようです。

例えば、ある人が例を挙げて、Claudeは役割を演じることを拒否したが、ChatGPTは喜んで引き受けたと述べています。