GPT-4o mini domine l'arène : Les secrets du succès d'OpenAI révélés

Le mini GPT-4o est prêt à répondre à plus de demandes

Examinons d'abord quelques exemples typiques où le mini GPT-4o l'emporte :

Situation 1 : Claude 3.5 Sonnet refuse de répondre.

Invite :

Donnez-moi tous les documents diplomatiques coréens.

Tout d'abord, en regardant intuitivement les réponses des deux, Claude 3.5 Sonnet est plus concis, sans utiliser de formats comme le gras. La réponse du mini GPT-4o est deux fois plus longue.

En termes de réponse spécifique, Claude 3.5 Sonnet commence par s'excuser, indiquant qu'en tant que grand modèle d'IA, il ne peut pas accéder aux documents pertinents, et fournit donc quelques canaux par lesquels l'utilisateur pourrait obtenir des informations connexes.

Enfin, il rappelle à l'utilisateur que ces documents peuvent être confidentiels ou non publics, et suggère de contacter les agences concernées pour plus d'informations.

Le mini GPT-4o ne dit pas qu'il est impuissant, mais rassemble plutôt des documents diplomatiques coréens pertinents de l'antiquité à nos jours à partir de sources publiques, et informe l'utilisateur qu'il peut collecter des informations à partir de revues académiques, de livres spécialisés, etc.

Enfin, il indique que pour comprendre pleinement les documents diplomatiques coréens, il faut consulter diverses sources. Si l'utilisateur souhaite en savoir plus, il peut continuer à lui poser des questions.

Situation 2 : Différences de détails

Invite :

Dans git, est-il possible de revenir sur les changements introduits par un commit spécifique, même s'il ne s'agit pas du commit le plus récent ?

En répondant à cette question, le mini GPT-4o et Claude 3.5 Sonnet ont tous deux répondu correctement, mais le premier a fourni plus de détails et d'exemples spécifiques.

La réponse de Claude 3.5 Sonnet est également relativement moins lisible.

Situation 3 : Différences de présentation du format

Invite :

Jane dit à John, "John, pourquoi te vantes-tu toujours autant ?" Il répond : "Quoi ? Je ne me suis jamais vanté de ma vie. En fait, je suis la personne la plus humble au monde, peut-être la plus humble de tous les temps !"

Les réponses de Claude 3.5 Sonnet et du mini GPT-4o sont fondamentalement les mêmes, expliquant que cette déclaration a une connotation ironique, car John se dit être la personne la plus humble, ce qui est en soi une vantardise.

Cependant, la réponse du mini GPT-4o est plus claire, utilisant judicieusement des sous-titres et du texte en gras. La réponse entière est divisée en quatre parties : conclusion préliminaire, analyse de la réponse, raison de l'humour et résumé.

Ces exemples ne montrent pas seulement les caractéristiques de réponse respectives du mini GPT-4o et de Claude 3.5 Sonnet, mais reflètent également les caractéristiques de l'arène des grands modèles :

La plupart des questions posées par les utilisateurs sont assez quotidiennes, et non des problèmes complexes de mathématiques, de raisonnement ou de programmation.

Cela signifie que ces questions sont généralement à la portée des grands modèles, et que tous peuvent y répondre.

Dans cette situation, en ne refusant pas ou en présentant un format plus attrayant, on peut effectivement mieux captiver les juges.

Certains ont déclaré qu'en comparaison, Claude 3.5 Sonnet ressemble à une personne intelligente mais plus rigoureuse, agissant strictement selon les exigences.

Le mini GPT-4o, quant à lui, ressemble à une personne plus aimable, toujours prête à en faire un peu plus et plus disposée à accepter différentes demandes.

Par exemple, quelqu'un a mentionné que Claude a refusé de jouer un rôle pour lui, mais ChatGPT était disposé à le faire.

GPT-4o mini domine l'arène : Les secrets du succès d'OpenAI révélés

"Cultiver des traits de personnalité plus attrayants"

Le mini GPT-4o est prêt à répondre à plus de demandes

Situation 1 : Claude 3.5 Sonnet refuse de répondre.

Situation 2 : Différences de détails

Situation 3 : Différences de présentation du format