A Apple surpreendeu ao divulgar publicamente seu modelo de linguagem de grande escala de 7B, juntamente com os dados de treinamento, provocando admiração entre os internautas: esse nível de abertura não é característico do estilo da Apple.

Desempenho comparável ao modelo Llama 3 8B

A Apple entrou na arena dos modelos de linguagem de grande escala de código aberto com uma abordagem mais aberta do que outras empresas. Eles lançaram um modelo de 7 bilhões de parâmetros que tem desempenho comparável ao Llama 3 8B, enquanto disponibilizam todo o processo de treinamento e recursos.

Essa ação vem após críticas recentes da editora da Nature, Elizabeth Gibney, de que muitos modelos de IA supostamente de código aberto carecem de transparência em dados e métodos de treinamento, não atendendo às verdadeiras necessidades de pesquisa científica. O lançamento da Apple aborda essas preocupações diretamente.

O cientista de PNL e criador do AutoAWQ expressou espanto, observando que a Apple não apenas lançou um modelo superando o Mistral 7B, mas também disponibilizou tudo, incluindo o conjunto de dados de pré-treinamento.

A importância deste lançamento de código aberto foi destacada por um membro da comunidade:

Para qualquer pessoa que busque treinar modelos do zero ou ajustar modelos existentes, o processo de gerenciamento de dados é essencial para estudar.

Além do lançamento da Apple, a Mistral AI se associou à NVIDIA para lançar um pequeno modelo de 12 bilhões de parâmetros na semana passada. O fundador da HuggingFace declarou que era a "semana do modelo pequeno".

O novo modelo pequeno da Apple mostra capacidades impressionantes:

  • Modelo base de 7B treinado em conjuntos de dados abertos usando 2,5 trilhões de tokens
  • Dados principalmente em inglês com janela de contexto de 2048 tokens
  • Conjuntos de dados incluem DCLM-BASELINE, StarCoder e ProofPile2
  • Pontuação MMLU se aproximando do Llama 3 8B
  • Treinado usando frameworks PyTorch e OpenLM

A equipe de pesquisa introduziu um novo benchmark de comparação de dados de modelos de linguagem chamado DCLM. Eles descobriram que filtrar e selecionar automaticamente dados de alta qualidade de conjuntos de dados maiores usando modelos de aprendizado de máquina pode ser a chave para construir conjuntos de treinamento de alta qualidade.

Usando o DCLM, eles projetaram um conjunto de dados de alta qualidade DCLM-BASELINE para treinar o modelo DCLM-7B de 7 bilhões de parâmetros do zero.

O DCLM-7B alcançou 64% de precisão de 5 tiros no benchmark MMLU, comparável ao Mistral-7B-v0.3 (63%) e Llama 3 8B (66%). Também igualou o desempenho médio do Llama 3 8B em 53 tarefas de compreensão de linguagem natural, exigindo apenas 1/6 do poder computacional.

Comparado a outros modelos de tamanho similar, a pontuação MMLU do DCLM-7B superou o Mistral-7B e se aproximou do Llama 3 8B.

Para testar a eficácia do novo conjunto de dados, um profissional da indústria treinou o GPT-2 1.5B usando llm.c para comparar o DCLM-Baseline com o FineWeb-Edu. Os resultados mostraram que o DCLM-Baseline alcançou pontuações médias mais altas, com melhor desempenho em tarefas como ARC, HellaSwag e MMLU.

A tendência para modelos menores tem ganhado impulso:

  • HuggingFace lançou a família "SmolLM" de modelos pequenos (135M, 360M, 1,7B)
  • OpenAI lançou o GPT-4o mini, aproximando-se das capacidades do GPT-4 a um custo menor
  • Mistral AI e NVIDIA lançaram o modelo Mistral NeMo de 12 bilhões de parâmetros

A mudança para modelos menores é impulsionada por sua capacidade de alcançar desempenho comparável a modelos maiores, reduzindo significativamente os custos. Como demonstrado pelo fundador da smol AI, modelos como o GPT-4o mini oferecem preços gerais mais baixos em comparação com alternativas maiores.