Llama 3.1 405B: O gigante de IA de código aberto que supera o GPT-4 lidera uma nova era

A Meta acabou de lançar a mais recente versão do modelo Llama conforme planejado - o Llama 3.1.

A Meta lançou o modelo Llama 3.1, que inclui versões de 8B, 70B e 405B. As principais características são:

  • Comprimento máximo de contexto aumentado para 128K
  • Suporte multilíngue
  • Excelente desempenho na geração de código
  • Capacidade de raciocínio complexo

Com base nos resultados dos testes de referência:

  • Llama 3.1 405B supera o GPT-4 0125 e compete com GPT-4o e Claude 3.5
  • Llama 3.1 8B supera o Gemma 2 9B 1T e o Mistral 7B Instruct
  • Llama 3.1 70B supera o GPT-3.5 Turbo

Detalhes do treinamento do Llama 3.1 405B:

  • Treinado com mais de 15 trilhões de tokens
  • Treinado em mais de 16000 GPUs H100
  • Usa um programa de pós-treinamento iterativo, combinando ajuste fino supervisionado e otimização direta de preferências
  • Melhorou a quantidade e qualidade dos dados de pré-treinamento e pós-treinamento
  • Quantizado de precisão de 16 bits para 8 bits, reduzindo a necessidade de recursos computacionais

Outros destaques:

  • Fornece pesos e código do modelo abertos/gratuitos
  • A licença permite que os usuários façam ajustes finos, destilação de modelo e implantação arbitrária
  • Oferece a API Llama Stack para fácil integração e uso
  • Suporta a coordenação de múltiplos componentes, incluindo chamadas a ferramentas externas

A Meta não proíbe mais o uso do Llama 3 para melhorar outros modelos, demonstrando uma atitude mais aberta. Este lançamento marca a primeira vez que modelos de código aberto alcançam o desempenho de modelos fechados, inaugurando uma nova era liderada pelo código aberto.

Link para download do modelo

Relatório de treinamento de 92 páginas