OpenAI desencadeia intensa competição em modelos pequenos, o DCLM da Apple surge surpreendentemente, superando o Mistral 7B em desempenho e sendo totalmente de código aberto

A competição por modelos de inteligência artificial de pequeno porte está se intensificando. Grandes empresas de tecnologia e startups estão investindo neste campo, competindo para lançar suas próprias soluções de IA leves. Esta acirrada disputa não envolve apenas inovação tecnológica, mas também participação de mercado e aplicações comerciais. Com o aumento da competição, é provável que vejamos o surgimento de mais produtos de IA eficientes e de baixo custo, trazendo novas possibilidades para diversos setores e indústrias.

A era dos modelos pequenos chegou, com grandes players como OpenAI, Mistral AI, HuggingFace e agora Apple lançando modelos de linguagem compactos.

A Apple entrou na arena dos modelos pequenos com sua nova série DCLM (Modelo de Linguagem Centrado em Dados), que inclui versões de 7 bilhões e 1,4 bilhões de parâmetros. O modelo de 7B supera o Mistral-7B e se aproxima das capacidades do Llama 3 e Gemma.

De acordo com o pesquisador de ML da Apple, Vaishaal Shankar, o DCLM é o modelo de melhor desempenho "verdadeiramente de código aberto" até o momento, com pesos, código de treinamento e um conjunto de dados aberto disponíveis publicamente. Essa abordagem totalmente aberta tem recebido elogios da comunidade de IA.

O modelo DCLM-7B usa uma arquitetura apenas de decodificador e foi treinado em 2,5T tokens filtrados de um conjunto de dados de 4T tokens. Ele tem um comprimento de contexto de 2048 tokens. As avaliações de desempenho mostram que ele supera outros modelos de dados abertos de tamanho similar em vários benchmarks.

Embora o desempenho do DCLM-7B seja comparável a modelos como Mistral-7B e Gemma 8B, ele fica atrás de alguns modelos de dados fechados como o Phi-3. No entanto, os pesquisadores encontraram melhorias adicionais ao estender os dados de treinamento e o comprimento do contexto.

A versão de 1,4B do DCLM mostra resultados particularmente fortes para seu tamanho, superando modelos como SmolLM, Qwen-1.5B e Phi-1.5B em algumas métricas.

Os modelos DCLM são construídos sobre o benchmark DataComp, que se concentra em curar dados de treinamento de alta qualidade em vez de apenas aumentar o tamanho do modelo. Isso se alinha com a crescente ênfase que muitos gigantes da tecnologia estão colocando nos dados de treinamento em vez da arquitetura do modelo.

Enquanto os grandes modelos de linguagem continuam a avançar, há um interesse crescente em modelos menores e mais eficientes dos principais laboratórios de IA. A entrada da Apple neste espaço com modelos totalmente de código aberto pode ajudar a acelerar o progresso em modelos de linguagem compactos, mas capazes.