Meta cientistas revelam processo de treinamento do Llama 3.1, desenvolvimento do Llama 4 iniciado

Pensamento de desenvolvimento do Llama 3.1

Necessário considerar múltiplos fatores como lei de escala, tempo de treinamento, restrições de hardware GPU, etc.
Considerar não apenas o hardware da própria Meta, mas também a situação de toda a comunidade de IA
A aplicação de técnicas de quantização mudou a proporção de custos de inferência e treinamento/ajuste fino
Encontrou-se o ponto de equilíbrio de 405B nas condições e restrições de poder computacional existentes
O objetivo é criar um modelo de código aberto comparável ao GPT-4

A Lei de Escala tradicional foca em duas dimensões: pesos do modelo e quantidade de treinamento
Chinchilla enfatizou a importância da quantidade total de tokens de dados de treinamento
Meta optou por aumentar o número de tokens de treinamento e a duração, permitindo que o modelo "treine em excesso"
Isso não está de acordo com a lei de Chinchilla, mas pode obter melhor desempenho de inferência

Poucas mudanças na arquitetura em comparação com o Llama 2, principalmente expansão da escala e qualidade dos dados
Futuras melhorias na arquitetura podem não se limitar ao Transformer
Atualmente, a arquitetura Transformer ainda carece de flexibilidade
Explorando a arquitetura MoE

Existe uma grande quantidade de texto de baixa qualidade na internet pública
Uso do Llama como classificador para filtrar tokens de alta qualidade
O treinamento posterior do Llama 3 usa completamente dados sintéticos obtidos do Llama 2
Perspectivas promissoras para dados sintéticos

Risco de overfitting ao melhorar com base em pontuações de referência
A avaliação de modelos de linguagem é um problema difícil
Tentativas de vários métodos de avaliação, como modelos de recompensa, model-as-a-judge, etc.
RLHF de múltiplas rodadas é um bom método para comparar modelos

Meta começou a treinar o modelo Llama 4 em junho
O foco pode ser em torno da tecnologia de agentes
Já foi realizado algum trabalho em ferramentas de agentes como Toolformer
Um excelente modelo de instruções é a base para a expansão das capacidades dos agentes
O benchmark GAIA lançado pela Meta é usado para avaliar a capacidade de resolver problemas reais
As várias capacidades dos agentes estão intimamente relacionadas ao nível de inteligência do modelo