A Apple entrou na arena dos modelos de linguagem de grande escala de código aberto com uma abordagem mais aberta do que outras empresas. Eles lançaram um modelo de 7 bilhões de parâmetros que tem desempenho comparável ao Llama 3 8B, enquanto disponibilizam todo o processo de treinamento e recursos.
Essa ação vem após críticas recentes da editora da Nature, Elizabeth Gibney, de que muitos modelos de IA supostamente de código aberto carecem de transparência em dados e métodos de treinamento, não atendendo às verdadeiras necessidades de pesquisa científica. O lançamento da Apple aborda essas preocupações diretamente.
O cientista de PNL e criador do AutoAWQ expressou espanto, observando que a Apple não apenas lançou um modelo superando o Mistral 7B, mas também disponibilizou tudo, incluindo o conjunto de dados de pré-treinamento.
A importância deste lançamento de código aberto foi destacada por um membro da comunidade:
Para qualquer pessoa que busque treinar modelos do zero ou ajustar modelos existentes, o processo de gerenciamento de dados é essencial para estudar.
Além do lançamento da Apple, a Mistral AI se associou à NVIDIA para lançar um pequeno modelo de 12 bilhões de parâmetros na semana passada. O fundador da HuggingFace declarou que era a "semana do modelo pequeno".
O novo modelo pequeno da Apple mostra capacidades impressionantes:
- Modelo base de 7B treinado em conjuntos de dados abertos usando 2,5 trilhões de tokens
- Dados principalmente em inglês com janela de contexto de 2048 tokens
- Conjuntos de dados incluem DCLM-BASELINE, StarCoder e ProofPile2
- Pontuação MMLU se aproximando do Llama 3 8B
- Treinado usando frameworks PyTorch e OpenLM
A equipe de pesquisa introduziu um novo benchmark de comparação de dados de modelos de linguagem chamado DCLM. Eles descobriram que filtrar e selecionar automaticamente dados de alta qualidade de conjuntos de dados maiores usando modelos de aprendizado de máquina pode ser a chave para construir conjuntos de treinamento de alta qualidade.
Usando o DCLM, eles projetaram um conjunto de dados de alta qualidade DCLM-BASELINE para treinar o modelo DCLM-7B de 7 bilhões de parâmetros do zero.
O DCLM-7B alcançou 64% de precisão de 5 tiros no benchmark MMLU, comparável ao Mistral-7B-v0.3 (63%) e Llama 3 8B (66%). Também igualou o desempenho médio do Llama 3 8B em 53 tarefas de compreensão de linguagem natural, exigindo apenas 1/6 do poder computacional.
Comparado a outros modelos de tamanho similar, a pontuação MMLU do DCLM-7B superou o Mistral-7B e se aproximou do Llama 3 8B.
Para testar a eficácia do novo conjunto de dados, um profissional da indústria treinou o GPT-2 1.5B usando llm.c para comparar o DCLM-Baseline com o FineWeb-Edu. Os resultados mostraram que o DCLM-Baseline alcançou pontuações médias mais altas, com melhor desempenho em tarefas como ARC, HellaSwag e MMLU.
A tendência para modelos menores tem ganhado impulso:
- HuggingFace lançou a família "SmolLM" de modelos pequenos (135M, 360M, 1,7B)
- OpenAI lançou o GPT-4o mini, aproximando-se das capacidades do GPT-4 a um custo menor
- Mistral AI e NVIDIA lançaram o modelo Mistral NeMo de 12 bilhões de parâmetros
A mudança para modelos menores é impulsionada por sua capacidade de alcançar desempenho comparável a modelos maiores, reduzindo significativamente os custos. Como demonstrado pelo fundador da smol AI, modelos como o GPT-4o mini oferecem preços gerais mais baixos em comparação com alternativas maiores.