Llama 3.1: Modelo de código aberto supera o auge do código fechado, o cenário da IA será remodelado?

O fundador da Meta, Mark Zuckerberg, compromete-se firmemente a avançar com uma estratégia de código aberto abrangente.

A Meta lançou oficialmente o Llama 3.1, incluindo modelos de três escalas: 8B, 70B e 405B, com o comprimento máximo de contexto aumentado para 128k. As principais características incluem:

  1. A versão 405B é um dos maiores modelos de código aberto atualmente, superando o desempenho dos principais modelos de IA existentes.

  2. Introdução de uma janela de contexto mais longa (até 128K tokens), capaz de lidar com tarefas e conversas mais complexas.

  3. Suporte para entrada e saída multilíngue, melhorando a versatilidade e o escopo de aplicação.

  4. Capacidade de inferência aprimorada, com destaque para a resolução de problemas matemáticos complexos e geração de conteúdo em tempo real.

A Meta afirma que a era em que os modelos de linguagem de código aberto ficavam atrás dos modelos proprietários está chegando ao fim, e o Llama 3.1 inaugura uma nova era liderada pelo código aberto. A versão 405B já é comparável em desempenho ao GPT-4 e Claude 3.

Em termos de arquitetura do modelo, o Llama 3.1 foi treinado em mais de 15 trilhões de tokens de dados, usando mais de 16.000 GPUs H100. Para garantir estabilidade e conveniência, foi adotada a arquitetura padrão Transformer apenas com decodificador, em vez da arquitetura MoE.

A equipe de pesquisa implementou um método de pós-treinamento iterativo, melhorando as funcionalidades do modelo através de ajuste fino supervisionado e otimização direta de preferências. Também exploraram o uso do modelo 405B como "modelo professor" para modelos menores.

A Meta também lançou um sistema de referência completo com vários aplicativos de exemplo e novos componentes, como o Llama Guard 3 e o Prompt Guard. Além disso, propôs a interface padronizada "Llama Stack" para simplificar a construção de componentes de cadeia de ferramentas e aplicativos.

De acordo com testes de referência, a versão 405B é comparável ou ligeiramente superior a modelos proprietários como o GPT-4 em vários testes. As versões 8B e 70B também superam significativamente outros modelos de código aberto de escala semelhante.