Pensamento de desenvolvimento do Llama 3.1
Como decidir a escala de parâmetros
- Necessário considerar múltiplos fatores como lei de escala, tempo de treinamento, restrições de hardware GPU, etc.
- Considerar não apenas o hardware da própria Meta, mas também a situação de toda a comunidade de IA
- A aplicação de técnicas de quantização mudou a proporção de custos de inferência e treinamento/ajuste fino
- Encontrou-se o ponto de equilíbrio de 405B nas condições e restrições de poder computacional existentes
- O objetivo é criar um modelo de código aberto comparável ao GPT-4
Revisitando a Lei de Escala
- A Lei de Escala tradicional foca em duas dimensões: pesos do modelo e quantidade de treinamento
- Chinchilla enfatizou a importância da quantidade total de tokens de dados de treinamento
- Meta optou por aumentar o número de tokens de treinamento e a duração, permitindo que o modelo "treine em excesso"
- Isso não está de acordo com a lei de Chinchilla, mas pode obter melhor desempenho de inferência
Arquitetura do modelo
- Poucas mudanças na arquitetura em comparação com o Llama 2, principalmente expansão da escala e qualidade dos dados
- Futuras melhorias na arquitetura podem não se limitar ao Transformer
- Atualmente, a arquitetura Transformer ainda carece de flexibilidade
- Explorando a arquitetura MoE
Sobre dados sintéticos
- Existe uma grande quantidade de texto de baixa qualidade na internet pública
- Uso do Llama como classificador para filtrar tokens de alta qualidade
- O treinamento posterior do Llama 3 usa completamente dados sintéticos obtidos do Llama 2
- Perspectivas promissoras para dados sintéticos
Avaliação e melhoria de LLMs
- Risco de overfitting ao melhorar com base em pontuações de referência
- A avaliação de modelos de linguagem é um problema difícil
- Tentativas de vários métodos de avaliação, como modelos de recompensa, model-as-a-judge, etc.
- RLHF de múltiplas rodadas é um bom método para comparar modelos
Llama 4 e Agentes
- Meta começou a treinar o modelo Llama 4 em junho
- O foco pode ser em torno da tecnologia de agentes
- Já foi realizado algum trabalho em ferramentas de agentes como Toolformer
- Um excelente modelo de instruções é a base para a expansão das capacidades dos agentes
- O benchmark GAIA lançado pela Meta é usado para avaliar a capacidade de resolver problemas reais
- As várias capacidades dos agentes estão intimamente relacionadas ao nível de inteligência do modelo