Vazamento do Llama 3.1: Desempenho superior ao GPT-4, com apenas um décimo do custo?

O desempenho do Llama 3.1 é comparável ao GPT-4o da OpenAI!

Alguns blogueiros de IA elogiaram que o lançamento do Llama 3.1 seria outro dia que muda o destino do mundo da IA.

Os resultados de benchmark vazados mostram que o Llama 3.1 vem nos tamanhos 8B, 70B e 405B. Mesmo o modelo 70B com a menor contagem de parâmetros tem desempenho comparável ao GPT-4o em muitos aspectos.

Alguns internautas apontaram que, com base neste benchmark, Llama 3.1 405B ≈ GPT-4o, enquanto Llama 3.1 70B se tornaria o primeiro modelo leve a superar a OpenAI, um mini GPT-4o.

No entanto, muitos que baixaram o modelo para testá-lo descobriram que o Llama 3.1 405B vazado tem um tamanho total de arquivo de cerca de 820GB, exigindo quase 3 vezes a memória do Llama 2 (cerca de 280GB) para manter a precisão total.

Isso significa que, a menos que você tenha um equipamento de mineração em casa e possa pagar por GPUs suficientes, desenvolvedores individuais acharão difícil executar o Llama 3.1 em seus próprios computadores. Alguns internautas especulam que o Llama 3.1 não é destinado a indivíduos, mas a instituições e empresas.

O ainda não anunciado Llama 3.1 também foi recebido com algum ceticismo. Muitos internautas reclamaram que os requisitos de GPU do Llama 3.1 são muito altos, tornando o mini GPT-4o da OpenAI mais custo-efetivo em comparação.

De acordo com as informações vazadas do modelo, o Llama 3.1 tem mais iterações em funcionalidade em comparação com o Llama 3 lançado em 19 de abril de 2024, incluindo janelas de contexto mais longas, entrada e saída multilíngue, e possível integração com desenvolvedores e ferramentas de terceiros.

Dados de treinamento: O Llama 3.1 foi treinado em mais de 15T tokens de fontes públicas, com dados de ajuste fino incluindo conjuntos de dados de instrução publicamente disponíveis (ao contrário do Llama-3!) e mais de 25 milhões de exemplos gerados sinteticamente.

Conversação multilíngue: O Llama 3.1 suporta 8 idiomas: inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. Embora o chinês infelizmente não esteja incluído, os desenvolvedores podem ajustar o modelo Llama 3.1 para idiomas além dos 8 suportados.

Janela de contexto: O comprimento do contexto para cada versão foi expandido de 8k para 128k, aproximadamente equivalente ao modelo ser capaz de lembrar, entender e processar cerca de 96.000 palavras de uma vez, quase um livro original inteiro de Harry Potter.

Muitos internautas estão ansiosos para comparar o Llama 3.1 com seus "predecessores", descobrindo que não apenas as métricas melhoraram significativamente, mas os recursos computacionais também foram economizados.

Com base nos testes dos internautas, o Llama 3.1 mostra melhorias significativas nas capacidades em comparação com o Llama 3. Em particular, as capacidades de human_eval e truthfulqa_mc1 melhoraram notavelmente, significando habilidades mais fortes de geração de código e respostas mais verdadeiras às perguntas.

Ao mesmo tempo, o modelo de instrução do Llama 3 mostra claras melhorias em relação ao modelo base em métricas como aprendizado de prompt, aprendizado contextual e ajuste eficiente de parâmetros.

Isso é razoável, já que os modelos base geralmente não são ajustados para tarefas específicas, enquanto os modelos de instrução são especialmente treinados para seguir instruções ou completar tarefas específicas. Geralmente, os modelos de instrução têm melhor desempenho nas métricas.

Isso deixa as pessoas ainda mais animadas para o lançamento oficial do Llama 3.1. Os testes atuais do modelo Llama 3.1 vazado visam apenas o modelo base, enquanto o modelo de instrução pode ter um desempenho ainda melhor!

Surpreendentemente, nos resultados do benchmark, o modelo Llama 3.1 70B iguala ou supera o GPT-4o, enquanto o modelo Llama 3.1 8B tem desempenho próximo ao modelo Llama 3 70B. Alguns internautas especulam que isso pode ter usado técnicas de destilação de modelo, onde os modelos 8B e 70B são versões simplificadas derivadas do maior modelo 405B, tornando o modelo grande "menor".

A destilação de modelo pode ser vista como estudantes aprendendo com professores. O modelo grande e poderoso (modelo professor) é o professor, enquanto o modelo menor e mais simples (modelo aluno) é o aluno. O modelo aluno aprende "imitando" o modelo professor, tentando fazer sua saída o mais próxima possível da saída do modelo professor, assim aprendendo conhecimentos e capacidades semelhantes.

Após o treinamento de destilação, o modelo aluno pode reduzir o tamanho do modelo e os requisitos de recursos computacionais, mantendo alto desempenho e precisão comparável.

Ainda não se sabe se o Llama 3.1 será de código aberto como esperado. Mas mesmo que seja de código aberto, você ainda precisará de bolsos profundos para poder usar o Llama 3.1.

O ingresso básico para executar o Llama 3.1 são GPUs suficientes.

Os arquivos vazados mostram que o tempo de treinamento para o Llama 3.1 405B em hardware tipo H100-80GB é de 30,84M horas de GPU. Isso significa que, assumindo que apenas uma H100-80GB é usada por hora, executar o Llama 3.1 405B levaria 30,84M horas - levaria 3500 anos para o modelo ser executado!

Para implantação privada, se uma empresa quiser executar com sucesso o Llama 3.1 405B dentro de um mês, precisaria estocar pelo menos 43.000 H100-80GBs. A $40.000 por H100, ### o ingresso para usar o poder computacional do Llama 3.1 405B seria tão alto quanto $17 bilhões, equivalente a 125 bilhões de RMB.

A boa notícia é que os custos de inferência do Llama 3.1 podem ser mais baratos.

De acordo com as previsões da Artificial Analysis, o custo de processamento de 1 milhão de tokens com o Llama 3.1 405B será mais barato do que modelos de fronteira de qualidade similar (GPT-4o e Claude 3.5 Sonnet), oferecendo melhor custo-benefício.

Além disso, alguns internautas especulam a partir do código-fonte que o Llama 3.1 405B pode se tornar um produto de assinatura que requer pagamento para uso. No entanto, a situação real ainda está para ser vista no lançamento oficial.