O Llama 3.1 supostamente vazou, incluindo resultados de benchmarks para modelos de 8B, 70B e 405B parâmetros. Até mesmo a versão de 70B supera o GPT-4o em vários benchmarks, marcando a primeira vez que um modelo de código aberto superou modelos de código fechado como GPT-4o e Claude Sonnet 3.5 em múltiplos benchmarks.
Detalhes principais do cartão do modelo vazado:
- Treinado em mais de 15T tokens de dados publicamente disponíveis até dezembro de 2023
- Dados de fine-tuning incluem conjuntos de instruções públicas e 15 milhões de amostras sintéticas
- Suporta inglês, francês, alemão, hindi, italiano, português, espanhol e tailandês
Os modelos supostamente têm um comprimento de contexto de 128k e usam atenção de consulta agrupada para melhor escalabilidade de inferência.
Os usos pretendidos incluem aplicações comerciais multilíngues e pesquisa. Os modelos ajustados por instruções são otimizados para chat semelhante a assistente, enquanto os modelos pré-treinados podem ser adaptados para várias tarefas de geração de linguagem natural.
Infraestrutura de treinamento:
- Biblioteca de treinamento personalizada e clusters de GPU da Meta
- 39,3 milhões de horas de GPU em hardware H100-80GB
- Estimativa de 11.390 toneladas de emissões de CO2e (0 toneladas baseadas no mercado devido ao uso de energia renovável)
Pontuações de benchmark são relatadas para várias tarefas, com os modelos Llama 3.1 superando muitos modelos de chat de código aberto e fechado.
Considerações de segurança:
- Abordagem de coleta de dados multipronged combinando dados gerados por humanos e sintéticos
- Classificadores baseados em LLM para controle de qualidade
- Foco na redução de recusas do modelo e tom de recusa
- Prompts adversariais incorporados aos dados de segurança
- Destinado a implantação como parte de um sistema de IA maior com salvaguardas adicionais
Os desenvolvedores devem implementar medidas de segurança em nível de sistema ao construir sistemas de agentes, especialmente ao utilizar novos recursos como janelas de contexto mais longas, capacidades multilíngues e integrações de ferramentas de terceiros.