Lançamento impactante: Llama 3.1, modelo de IA de código aberto, lidera uma nova era de IA para todos

Utilizando 16.000 GPUs H100, treinado com base em 150 bilhões de tokens.

01. Modelo de código aberto de 405B parâmetros rivaliza com GPT-4o, 25 parceiros já estão prontos

A Meta avaliou o desempenho em mais de 150 conjuntos de dados de referência, e o Llama 3.1 405B é comparável ao GPT-4o, Claude 3.5 Sonnet e Gemini Ultra em uma série de tarefas, incluindo senso comum, operacionalidade, matemática, uso de ferramentas e tradução multilíngue.

Em cenários reais, o Llama 3.1 405B foi comparado com avaliações humanas, superando o GPT-4o e o Claude 3.5 Sonnet em desempenho geral.

Os modelos Llama 3.1 8B e 70B atualizados também apresentam melhor desempenho em comparação com modelos de tamanho similar, suportando a mesma janela de contexto de 128K tokens, capacidades multilíngues, inferência aprimorada e uso de ferramentas de ponta para permitir aplicações mais avançadas.

A Meta atualizou sua licença, permitindo que desenvolvedores usem pela primeira vez a saída de modelos Llama, incluindo o de 405B parâmetros, para melhorar outros modelos.

Ao mesmo tempo, o ecossistema de código aberto da Meta se expandiu ainda mais, com mais de 25 empresas lançando novos modelos Llama 3.1.

Amazon Web Services, Databricks e NVIDIA estão lançando conjuntos completos de serviços para apoiar desenvolvedores no ajuste fino e treinamento de seus próprios modelos. Startups de chips de IA como a Groq construíram serviços de inferência de baixa latência e baixo custo para todos os novos modelos lançados pela Meta.

Esses modelos também estarão disponíveis nas principais plataformas de nuvem, incluindo Amazon Web Services, Microsoft Azure, Google Cloud e Oracle.

Empresas como Scale AI, Dell e Deloitte estão prontas para ajudar as organizações a adotar modelos Llama e treinar modelos personalizados com seus próprios dados.

O Llama 3.1 405B não é apenas o modelo de código aberto mais poderoso, mas também tem o potencial de se tornar o modelo mais forte em geral, reduzindo significativamente a distância entre modelos de código aberto e fechado.

02. Pilha de treinamento completamente otimizada, focada em tornar o modelo escalável

Para treinar o modelo com 15 trilhões de tokens e alcançar os efeitos desejados pelos pesquisadores em um tempo razoável, a Meta otimizou completamente a pilha de treinamento.

Para resolver esses desafios, a Meta optou por se concentrar em manter o processo de desenvolvimento do modelo escalável e em estratégias mais diretas:

  1. Os pesquisadores escolheram a arquitetura padrão do modelo Transformer apenas com decodificador com pequenos ajustes, em vez de adotar o modelo de Mistura de Especialistas (MoE), para maximizar a estabilidade do treinamento.

  2. Os pesquisadores adotaram um procedimento iterativo pós-treinamento, usando ajuste fino supervisionado e otimização direta de preferência em cada rodada. Isso permite que o modelo crie dados sintéticos de alta qualidade para cada rodada e melhore o desempenho em cada capacidade.

Em comparação com os modelos anteriores da série Llama, a Meta melhorou a quantidade e qualidade dos dados usados antes e depois do treinamento. Essas melhorias incluem o desenvolvimento de pipelines mais cuidadosos de pré-processamento e gerenciamento para dados pré-treinamento, desenvolvimento de garantia de qualidade mais rigorosa e métodos de filtragem para dados pós-treinamento.

Como esperado pelas Leis de Escala dos grandes modelos de linguagem, o novo modelo flagship da Meta supera modelos menores treinados com a mesma estratégia. A Meta também usou o modelo de 405B parâmetros para melhorar a qualidade de treinamento de seus modelos menores.

Ao mesmo tempo, para suportar inferência em larga escala do modelo de 405B parâmetros, os pesquisadores quantizaram o modelo de BF16 para FP8, reduzindo efetivamente os requisitos computacionais necessários e permitindo que o modelo seja executado em um único nó de servidor.

Em termos de ajuste fino de instruções e chat, os pesquisadores geraram o modelo final através de várias rodadas de alinhamento sobre o modelo pré-treinado, cada rodada envolvendo ajuste fino supervisionado (SFT), amostragem por rejeição (RS) e otimização direta de preferência (DPO), usando geração de dados sintéticos para produzir a maioria dos exemplos de SFT para gerar dados sintéticos de maior qualidade em todas as funcionalidades.

Além disso, a Meta adotou várias técnicas de processamento de dados para filtrar esses dados sintéticos para a mais alta qualidade, permitindo que os novos modelos escalem a quantidade de dados de ajuste fino em todas as funcionalidades.

Em termos de dados, os pesquisadores também equilibraram cuidadosamente os dados para gerar modelos de alta qualidade com todas as funcionalidades. Por exemplo, garantindo a qualidade do modelo em benchmarks de contexto curto, permitindo que ele escale para comprimentos de contexto de 128K.

Além disso, a Meta também anunciou o lançamento de um sistema Llama abrangente. Além de cobrir os modelos Llama, o sistema envolve a coordenação de vários componentes e chamadas de ferramentas externas, ajudando os desenvolvedores a criar produtos personalizados mais poderosos do que os modelos básicos.

O sistema Llama abrangerá uma série de novos componentes, incluindo novas ferramentas de segurança de código aberto como o Llama Guard 3 (modelo de segurança multilíngue) e o Prompt Guard (filtro de injeção de prompt). Para conectar os componentes dispersos, a Meta também lançou um pedido de comentários sobre a API Llama Stack, uma interface padrão para facilitar o uso dos modelos Llama por projetos de terceiros.

Para desenvolvedores comuns, usar um modelo de escala 405B ainda é um desafio, exigindo recursos computacionais significativos e expertise.

Com base no sistema Llama, o desenvolvimento de IA generativa não é apenas sobre prompts de modelo; todos deveriam ser capazes de usar o modelo 405B para realizar mais tarefas, incluindo inferência em tempo real e em lote, ajuste fino supervisionado, avaliação de modelos para aplicações específicas, pré-treinamento contínuo, geração aumentada por recuperação (RAG), chamadas de função, geração de dados sintéticos e mais.

Este é o maior modelo lançado pela Meta até agora, com planos futuros para lançar mais tamanhos amigáveis a dispositivos, mais modalidades e atualizações no nível de agente.

03. O modelo de 405B parâmetros revoluciona o Meta AI, assistente de voz inteligente Quest é atualizado

Agora, vários terminais da Meta, como o WhatsApp e o chatbot Meta AI, começaram a usar o Llama 3.1 405B.

O Meta AI agora suporta sete novos idiomas, e a Meta lançou um novo conjunto de ferramentas criativas do Meta AI, focando principalmente em geração visual, matemática e codificação.

Primeiro, vamos olhar para a geração visual. O Meta AI lançou o recurso de geração de imagens "Imagine Me", que permite aos usuários digitar "imagine me" em um chat do Meta AI e adicionar prompts, como "imagine me como um membro da realeza" ou "imagine me em uma pintura surrealista", para gerar imagens e compartilhá-las com amigos e familiares.