Llama 3.1 405B: O gigante de IA de código aberto que supera o GPT-4 lidera uma nova era

A Meta lançou o modelo Llama 3.1, que inclui versões de 8B, 70B e 405B. As principais características são:

Comprimento máximo de contexto aumentado para 128K
Suporte multilíngue
Excelente desempenho na geração de código
Capacidade de raciocínio complexo

Com base nos resultados dos testes de referência:

Llama 3.1 405B supera o GPT-4 0125 e compete com GPT-4o e Claude 3.5
Llama 3.1 8B supera o Gemma 2 9B 1T e o Mistral 7B Instruct
Llama 3.1 70B supera o GPT-3.5 Turbo

Detalhes do treinamento do Llama 3.1 405B:

Treinado com mais de 15 trilhões de tokens
Treinado em mais de 16000 GPUs H100
Usa um programa de pós-treinamento iterativo, combinando ajuste fino supervisionado e otimização direta de preferências
Melhorou a quantidade e qualidade dos dados de pré-treinamento e pós-treinamento
Quantizado de precisão de 16 bits para 8 bits, reduzindo a necessidade de recursos computacionais

Outros destaques:

Fornece pesos e código do modelo abertos/gratuitos
A licença permite que os usuários façam ajustes finos, destilação de modelo e implantação arbitrária
Oferece a API Llama Stack para fácil integração e uso
Suporta a coordenação de múltiplos componentes, incluindo chamadas a ferramentas externas

A Meta não proíbe mais o uso do Llama 3 para melhorar outros modelos, demonstrando uma atitude mais aberta. Este lançamento marca a primeira vez que modelos de código aberto alcançam o desempenho de modelos fechados, inaugurando uma nova era liderada pelo código aberto.

Link para download do modelo

Relatório de treinamento de 92 páginas

Llama 3.1 405B: O gigante de IA de código aberto que supera o GPT-4 lidera uma nova era

A Meta acabou de lançar a mais recente versão do modelo Llama conforme planejado - o Llama 3.1.