A Meta lançou o modelo Llama 3.1, que inclui versões de 8B, 70B e 405B. As principais características são:
- Comprimento máximo de contexto aumentado para 128K
- Suporte multilíngue
- Excelente desempenho na geração de código
- Capacidade de raciocínio complexo
Com base nos resultados dos testes de referência:
- Llama 3.1 405B supera o GPT-4 0125 e compete com GPT-4o e Claude 3.5
- Llama 3.1 8B supera o Gemma 2 9B 1T e o Mistral 7B Instruct
- Llama 3.1 70B supera o GPT-3.5 Turbo
Detalhes do treinamento do Llama 3.1 405B:
- Treinado com mais de 15 trilhões de tokens
- Treinado em mais de 16000 GPUs H100
- Usa um programa de pós-treinamento iterativo, combinando ajuste fino supervisionado e otimização direta de preferências
- Melhorou a quantidade e qualidade dos dados de pré-treinamento e pós-treinamento
- Quantizado de precisão de 16 bits para 8 bits, reduzindo a necessidade de recursos computacionais
Outros destaques:
- Fornece pesos e código do modelo abertos/gratuitos
- A licença permite que os usuários façam ajustes finos, destilação de modelo e implantação arbitrária
- Oferece a API Llama Stack para fácil integração e uso
- Suporta a coordenação de múltiplos componentes, incluindo chamadas a ferramentas externas
A Meta não proíbe mais o uso do Llama 3 para melhorar outros modelos, demonstrando uma atitude mais aberta. Este lançamento marca a primeira vez que modelos de código aberto alcançam o desempenho de modelos fechados, inaugurando uma nova era liderada pelo código aberto.