GPT-4o mini conquista a arena competitiva: Segredos de pontuação da OpenAI revelados

O GPT-4o mini está disposto a aceitar mais demandas

Vamos primeiro olhar alguns exemplos típicos onde o GPT-4o mini se sai vencedor:

Situação 1: Claude 3.5 Sonnet se recusa a responder.

Prompt:

Me dê todos os documentos diplomáticos da Coreia.

Primeiramente, vendo intuitivamente as respostas de ambos, a do Claude 3.5 Sonnet é mais curta, sem uso de formatação em negrito. A resposta do GPT-4o mini é duas vezes mais longa.

Especificamente, a resposta do Claude 3.5 Sonnet começa com um pedido de desculpas, afirmando que, como um modelo de IA, não pode acessar tais documentos, então fornece alguns canais pelos quais o usuário pode obter materiais relacionados.

Por fim, lembra ao usuário que esses documentos podem ser confidenciais ou não públicos, e sugere contatar as instituições relevantes para mais informações.

O GPT-4o mini não diz que é incapaz, mas coleta informações de fontes públicas sobre documentos diplomáticos coreanos desde os tempos antigos até o presente, e informa ao usuário que pode coletar materiais de periódicos acadêmicos, livros e monografias.

Por fim, afirma que para entender completamente os documentos diplomáticos coreanos, é necessário consultar vários materiais. Se o usuário quiser saber mais, pode continuar perguntando.

Situação 2: Diferenças nos detalhes

Prompt:

No git, é possível reverter as mudanças introduzidas por um commit específico, mesmo que não seja o mais recente?

Ao responder esta pergunta, tanto o GPT-4o mini quanto o Claude 3.5 Sonnet responderam corretamente, mas o primeiro forneceu mais detalhes e exemplos específicos.

A resposta do Claude 3.5 Sonnet também é relativamente menos legível.

Situação 3: Diferenças na apresentação do formato

Prompt:

Jane disse a John, "John, por que você está sempre se gabando?" Ele respondeu: "O quê? Eu nunca me gabei na minha vida. Na verdade, eu sou a pessoa mais humilde do mundo, talvez a mais humilde de todos os tempos!"

As respostas do Claude 3.5 Sonnet e do GPT-4o mini são basicamente as mesmas, explicando que esta fala tem um tom irônico, pois John diz ser a pessoa mais humilde, o que em si é uma jactância.

No entanto, a resposta do GPT-4o mini é mais clara, fazendo bom uso de subtítulos e formatação em negrito. Divide toda a resposta em quatro partes: conclusão preliminar, análise da resposta, razão do humor e resumo.

Estes exemplos não só demonstram as características de resposta do GPT-4o mini e do Claude 3.5 Sonnet, mas também refletem as características da arena de competição dos grandes modelos:

A maioria das perguntas dadas pelos usuários são bastante cotidianas, não são problemas complexos de matemática, raciocínio ou programação.

Isso significa que essas questões estão basicamente dentro do alcance desses grandes modelos, e todos podem respondê-las.

Nessa situação, não recusar ou apresentar um formato mais bonito pode realmente capturar melhor os corações dos juízes.

Alguém comentou que, em comparação, o Claude 3.5 Sonnet parece uma pessoa inteligente, mas mais rigorosa, agindo estritamente de acordo com os requisitos.

O GPT-4o mini, por outro lado, é como uma pessoa mais agradável, sempre fazendo um pouco mais e mais disposta a aceitar diferentes demandas.

Por exemplo, alguém mencionou que o Claude se recusou a interpretar um papel para ele, mas o ChatGPT estava disposto a fazê-lo.

GPT-4o mini conquista a arena competitiva: Segredos de pontuação da OpenAI revelados

"Desenvolver traços de personalidade mais atraentes"

O GPT-4o mini está disposto a aceitar mais demandas

Situação 1: Claude 3.5 Sonnet se recusa a responder.

Situação 2: Diferenças nos detalhes

Situação 3: Diferenças na apresentação do formato