A Apple surpreendeu ao divulgar publicamente seu modelo de linguagem de grande escala de 7B, juntamente com os dados de treinamento, provocando admiração entre os internautas: esse nível de abertura não é característico do estilo da Apple.

A Apple entrou na arena dos modelos de linguagem de grande escala de código aberto com uma abordagem mais aberta do que outras empresas. Eles lançaram um modelo de 7 bilhões de parâmetros que tem desempenho comparável ao Llama 3 8B, enquanto disponibilizam todo o processo de treinamento e recursos.

Essa ação vem após críticas recentes da editora da Nature, Elizabeth Gibney, de que muitos modelos de IA supostamente de código aberto carecem de transparência em dados e métodos de treinamento, não atendendo às verdadeiras necessidades de pesquisa científica. O lançamento da Apple aborda essas preocupações diretamente.

O cientista de PNL e criador do AutoAWQ expressou espanto, observando que a Apple não apenas lançou um modelo superando o Mistral 7B, mas também disponibilizou tudo, incluindo o conjunto de dados de pré-treinamento.

A importância deste lançamento de código aberto foi destacada por um membro da comunidade:

Para qualquer pessoa que busque treinar modelos do zero ou ajustar modelos existentes, o processo de gerenciamento de dados é essencial para estudar.

Além do lançamento da Apple, a Mistral AI se associou à NVIDIA para lançar um pequeno modelo de 12 bilhões de parâmetros na semana passada. O fundador da HuggingFace declarou que era a "semana do modelo pequeno".

O novo modelo pequeno da Apple mostra capacidades impressionantes:

Modelo base de 7B treinado em conjuntos de dados abertos usando 2,5 trilhões de tokens
Dados principalmente em inglês com janela de contexto de 2048 tokens
Conjuntos de dados incluem DCLM-BASELINE, StarCoder e ProofPile2
Pontuação MMLU se aproximando do Llama 3 8B
Treinado usando frameworks PyTorch e OpenLM

A equipe de pesquisa introduziu um novo benchmark de comparação de dados de modelos de linguagem chamado DCLM. Eles descobriram que filtrar e selecionar automaticamente dados de alta qualidade de conjuntos de dados maiores usando modelos de aprendizado de máquina pode ser a chave para construir conjuntos de treinamento de alta qualidade.

Usando o DCLM, eles projetaram um conjunto de dados de alta qualidade DCLM-BASELINE para treinar o modelo DCLM-7B de 7 bilhões de parâmetros do zero.

O DCLM-7B alcançou 64% de precisão de 5 tiros no benchmark MMLU, comparável ao Mistral-7B-v0.3 (63%) e Llama 3 8B (66%). Também igualou o desempenho médio do Llama 3 8B em 53 tarefas de compreensão de linguagem natural, exigindo apenas 1/6 do poder computacional.

Comparado a outros modelos de tamanho similar, a pontuação MMLU do DCLM-7B superou o Mistral-7B e se aproximou do Llama 3 8B.

Para testar a eficácia do novo conjunto de dados, um profissional da indústria treinou o GPT-2 1.5B usando llm.c para comparar o DCLM-Baseline com o FineWeb-Edu. Os resultados mostraram que o DCLM-Baseline alcançou pontuações médias mais altas, com melhor desempenho em tarefas como ARC, HellaSwag e MMLU.

A tendência para modelos menores tem ganhado impulso:

HuggingFace lançou a família "SmolLM" de modelos pequenos (135M, 360M, 1,7B)
OpenAI lançou o GPT-4o mini, aproximando-se das capacidades do GPT-4 a um custo menor
Mistral AI e NVIDIA lançaram o modelo Mistral NeMo de 12 bilhões de parâmetros

A mudança para modelos menores é impulsionada por sua capacidade de alcançar desempenho comparável a modelos maiores, reduzindo significativamente os custos. Como demonstrado pelo fundador da smol AI, modelos como o GPT-4o mini oferecem preços gerais mais baixos em comparação com alternativas maiores.

A Apple surpreendeu ao divulgar publicamente seu modelo de linguagem de grande escala de 7B, juntamente com os dados de treinamento, provocando admiração entre os internautas: esse nível de abertura não é característico do estilo da Apple.

Desempenho comparável ao modelo Llama 3 8B