Novo campeão de IA de código aberto: Llama 3.1 vaza e supera GPT-4o

O modelo Llama 3.1 da Meta sofreu novamente um vazamento antecipado, gerando discussões acaloradas na comunidade de desenvolvedores. O maior modelo vazado desta vez atinge 405B parâmetros, enquanto as versões de 8B e 70B também foram atualizadas. O conjunto completo de modelos tem um tamanho total de aproximadamente 820GB. Os resultados preliminares dos testes de referência são impressionantes, e os links de download estão sendo amplamente compartilhados na internet.

Família Llama 3.1, Lançamento Amanhã

De acordo com o cartão do modelo vazado, o Llama 3.1 será lançado no dia 23.

A licença é "Licença Comercial Personalizada" e "Licença Comunitária Llama 3.1".

Especificamente, a série Llama 3.1 de modelos de linguagem grandes multilíngues é um conjunto de modelos generativos pré-treinados e ajustados por instruções, incluindo escalas de parâmetros de 8B, 70B e 405B.

Os modelos Llama 3.1 apenas de texto ajustados por instruções (8B, 70B, 405B) são otimizados para casos de uso conversacional multilíngue.

Além do inglês, suporta 7 idiomas, incluindo alemão, francês, italiano, português, hindi, espanhol e tailandês.

De acordo com a introdução, as novas capacidades do Llama 3.1 incluem contexto mais longo, suporte para entrada e saída multilíngue e integração com ferramentas de desenvolvedores e de terceiros.

Testes de Benchmark

Um gráfico de benchmark no GitHub (agora 404) mostra o excelente desempenho do Llama 3.1 em testes de benchmark.

Especificamente, nas avaliações de benchmark de modelos pré-treinados, o Llama 3.1 405B estabeleceu novos recordes em tarefas gerais, raciocínio de conhecimento e compreensão de leitura.

As melhorias foram mais notáveis nos sub-benchmarks MMLU e SQuAD.

Enquanto isso, as versões de 8B e 70B parâmetros do Llama 3.1 mostraram pequenas melhorias em comparação com o Llama 3. No entanto, em algumas métricas, o Llama 3.1 70B ainda teve desempenho inferior ao seu predecessor.

Além disso, entre os modelos ajustados por instruções, o Llama 3.1 405B é claramente mais forte que o modelo pré-treinado. Ele supera significativamente as versões ajustadas de 8B e 70B em raciocínio, codificação, matemática, uso de ferramentas e benchmarks multilíngues.

Os modelos ajustados Llama 3.1 8B e 70B também mostram melhorias substanciais de desempenho em várias tarefas de capacidade.

Alguns internautas compilaram benchmarks de outros modelos líderes, mostrando por comparação que o Claude 3.5 Sonnet é o campeão em todos os benchmarks.

A versão ajustada do Llama 3.1 405B só tem o melhor desempenho no benchmark de matemática MMLU Pro, superando todos os grandes modelos com uma pontuação de 73,3%.

Além disso, o 405B está em par com o GPT-4o nos benchmarks GPQA (conhecimento e raciocínio profissional de nível de pós-graduação), matemática, DROP (compreensão de leitura), MGSM (matemática multilíngue), HumanEval (programação) e BBH (avaliação de conhecimento).

Além disso, o 405B supera significativamente o mais recente modelo mini GPT-4o.

O Llama 3.1 é um modelo de linguagem autorregressivo usando uma arquitetura Transformer otimizada. As versões ajustadas usam SFT e RLHF para alinhar com as preferências de segurança humana.

Para os modelos da série Llama 3.1, as contagens de tokens referem-se apenas aos dados de pré-treinamento.

Todas as versões do modelo usam atenção de consulta agrupada (GQA) para melhorar a escalabilidade de inferência.

15T Tokens de Dados de Treinamento

Como o Llama 3, o Llama 3.1 foi pré-treinado em aproximadamente 15 trilhões de tokens de fontes publicamente disponíveis.

Os dados de ajuste fino incluem conjuntos de dados de instruções publicamente disponíveis, bem como mais de 25 milhões de amostras sintéticas, com dados de pré-treinamento cortados em dezembro de 2023.

Disponível para Uso Comercial e de Pesquisa

O Llama 3.1 suporta uso comercial e de pesquisa em ambientes multilíngues.

Os modelos apenas de texto ajustados por instruções são adequados para assistentes de chat, enquanto os modelos pré-treinados podem se adaptar a várias tarefas de geração de linguagem natural. A coleção de modelos Llama 3.1 também suporta o uso de suas saídas de modelo para melhorar outros modelos, incluindo geração de dados sintéticos e destilação de modelo.

Usos que violam leis e regulamentos, políticas de uso e a Licença Comunitária Llama 3.1, ou usos além dos idiomas suportados, estão fora do escopo.

A equipe enfatiza que o Llama 3.1 foi treinado em um conjunto mais amplo de idiomas além dos 8 suportados. Os desenvolvedores podem ajustá-lo para uso em outros idiomas, desde que cumpram políticas como a licença comunitária e garantam uso seguro e responsável.

39,3 Milhões de Horas de GPU de Treinamento

Para o pré-treinamento, a Meta usou bibliotecas de treinamento personalizadas, clusters de GPU personalizados da Meta e infraestrutura de produção. O ajuste fino, anotação e avaliação também foram conduzidos na infraestrutura de produção.

O treinamento usou cumulativamente 39,3 milhões de horas de GPU de tempo de computação, com H100-80GB (700W TDP) como o tipo de hardware.

O tempo de treinamento é o tempo total de GPU necessário para treinar cada modelo, e o consumo de energia é a capacidade de pico de energia de cada dispositivo GPU, ajustada para eficiência de uso de energia.