A era dos modelos pequenos chegou, com grandes players como OpenAI, Mistral AI, HuggingFace e agora Apple lançando modelos de linguagem compactos.
A Apple entrou na arena dos modelos pequenos com sua nova série DCLM (Modelo de Linguagem Centrado em Dados), que inclui versões de 7 bilhões e 1,4 bilhões de parâmetros. O modelo de 7B supera o Mistral-7B e se aproxima das capacidades do Llama 3 e Gemma.
De acordo com o pesquisador de ML da Apple, Vaishaal Shankar, o DCLM é o modelo de melhor desempenho "verdadeiramente de código aberto" até o momento, com pesos, código de treinamento e um conjunto de dados aberto disponíveis publicamente. Essa abordagem totalmente aberta tem recebido elogios da comunidade de IA.
O modelo DCLM-7B usa uma arquitetura apenas de decodificador e foi treinado em 2,5T tokens filtrados de um conjunto de dados de 4T tokens. Ele tem um comprimento de contexto de 2048 tokens. As avaliações de desempenho mostram que ele supera outros modelos de dados abertos de tamanho similar em vários benchmarks.
Embora o desempenho do DCLM-7B seja comparável a modelos como Mistral-7B e Gemma 8B, ele fica atrás de alguns modelos de dados fechados como o Phi-3. No entanto, os pesquisadores encontraram melhorias adicionais ao estender os dados de treinamento e o comprimento do contexto.
A versão de 1,4B do DCLM mostra resultados particularmente fortes para seu tamanho, superando modelos como SmolLM, Qwen-1.5B e Phi-1.5B em algumas métricas.
Os modelos DCLM são construídos sobre o benchmark DataComp, que se concentra em curar dados de treinamento de alta qualidade em vez de apenas aumentar o tamanho do modelo. Isso se alinha com a crescente ênfase que muitos gigantes da tecnologia estão colocando nos dados de treinamento em vez da arquitetura do modelo.
Enquanto os grandes modelos de linguagem continuam a avançar, há um interesse crescente em modelos menores e mais eficientes dos principais laboratórios de IA. A entrada da Apple neste espaço com modelos totalmente de código aberto pode ajudar a acelerar o progresso em modelos de linguagem compactos, mas capazes.