Meta cientistas revelam processo de treinamento do Llama 3.1, desenvolvimento do Llama 4 iniciado

Pesquisadores da Meta discutem o modelo Llama 3.1 e suas perspectivas de desenvolvimento futuro.

Pensamento de desenvolvimento do Llama 3.1

Como decidir a escala de parâmetros

  • Necessário considerar múltiplos fatores como lei de escala, tempo de treinamento, restrições de hardware GPU, etc.
  • Considerar não apenas o hardware da própria Meta, mas também a situação de toda a comunidade de IA
  • A aplicação de técnicas de quantização mudou a proporção de custos de inferência e treinamento/ajuste fino
  • Encontrou-se o ponto de equilíbrio de 405B nas condições e restrições de poder computacional existentes
  • O objetivo é criar um modelo de código aberto comparável ao GPT-4

Revisitando a Lei de Escala

  • A Lei de Escala tradicional foca em duas dimensões: pesos do modelo e quantidade de treinamento
  • Chinchilla enfatizou a importância da quantidade total de tokens de dados de treinamento
  • Meta optou por aumentar o número de tokens de treinamento e a duração, permitindo que o modelo "treine em excesso"
  • Isso não está de acordo com a lei de Chinchilla, mas pode obter melhor desempenho de inferência

Arquitetura do modelo

  • Poucas mudanças na arquitetura em comparação com o Llama 2, principalmente expansão da escala e qualidade dos dados
  • Futuras melhorias na arquitetura podem não se limitar ao Transformer
  • Atualmente, a arquitetura Transformer ainda carece de flexibilidade
  • Explorando a arquitetura MoE

Sobre dados sintéticos

  • Existe uma grande quantidade de texto de baixa qualidade na internet pública
  • Uso do Llama como classificador para filtrar tokens de alta qualidade
  • O treinamento posterior do Llama 3 usa completamente dados sintéticos obtidos do Llama 2
  • Perspectivas promissoras para dados sintéticos

Avaliação e melhoria de LLMs

  • Risco de overfitting ao melhorar com base em pontuações de referência
  • A avaliação de modelos de linguagem é um problema difícil
  • Tentativas de vários métodos de avaliação, como modelos de recompensa, model-as-a-judge, etc.
  • RLHF de múltiplas rodadas é um bom método para comparar modelos

Llama 4 e Agentes

  • Meta começou a treinar o modelo Llama 4 em junho
  • O foco pode ser em torno da tecnologia de agentes
  • Já foi realizado algum trabalho em ferramentas de agentes como Toolformer
  • Um excelente modelo de instruções é a base para a expansão das capacidades dos agentes
  • O benchmark GAIA lançado pela Meta é usado para avaliar a capacidade de resolver problemas reais
  • As várias capacidades dos agentes estão intimamente relacionadas ao nível de inteligência do modelo

Link original