A Meta lançou oficialmente o Llama 3.1, incluindo modelos de três escalas: 8B, 70B e 405B, com o comprimento máximo de contexto aumentado para 128k. As principais características incluem:
-
A versão 405B é um dos maiores modelos de código aberto atualmente, superando o desempenho dos principais modelos de IA existentes.
-
Introdução de uma janela de contexto mais longa (até 128K tokens), capaz de lidar com tarefas e conversas mais complexas.
-
Suporte para entrada e saída multilíngue, melhorando a versatilidade e o escopo de aplicação.
-
Capacidade de inferência aprimorada, com destaque para a resolução de problemas matemáticos complexos e geração de conteúdo em tempo real.
A Meta afirma que a era em que os modelos de linguagem de código aberto ficavam atrás dos modelos proprietários está chegando ao fim, e o Llama 3.1 inaugura uma nova era liderada pelo código aberto. A versão 405B já é comparável em desempenho ao GPT-4 e Claude 3.
Em termos de arquitetura do modelo, o Llama 3.1 foi treinado em mais de 15 trilhões de tokens de dados, usando mais de 16.000 GPUs H100. Para garantir estabilidade e conveniência, foi adotada a arquitetura padrão Transformer apenas com decodificador, em vez da arquitetura MoE.
A equipe de pesquisa implementou um método de pós-treinamento iterativo, melhorando as funcionalidades do modelo através de ajuste fino supervisionado e otimização direta de preferências. Também exploraram o uso do modelo 405B como "modelo professor" para modelos menores.
A Meta também lançou um sistema de referência completo com vários aplicativos de exemplo e novos componentes, como o Llama Guard 3 e o Prompt Guard. Além disso, propôs a interface padronizada "Llama Stack" para simplificar a construção de componentes de cadeia de ferramentas e aplicativos.
De acordo com testes de referência, a versão 405B é comparável ou ligeiramente superior a modelos proprietários como o GPT-4 em vários testes. As versões 8B e 70B também superam significativamente outros modelos de código aberto de escala semelhante.