Não é que os grandes modelos sejam inacessíveis, mas os pequenos modelos têm melhor custo-benefício
No vasto mundo da IA, os pequenos modelos sempre tiveram sua própria lenda.
Olhando para fora, o Mistral 7B, que causou sensação no ano passado, foi aclamado como "o melhor modelo de 7B" assim que foi lançado, superando o modelo Llama 2 de 13B parâmetros em várias avaliações de referência e superando o Llama 34B em inferência, matemática e geração de código.
Este ano, a Microsoft também lançou o phi-3-mini, o modelo de linguagem de pequeno parâmetro mais poderoso de código aberto, que, apesar de ter apenas 3,8B de parâmetros, superou significativamente o desempenho de modelos de escala similar e competiu com modelos maiores como GPT-3.5 e Claude-3 Sonnet.
Olhando para dentro, a Mianbi Intelligence lançou no início de fevereiro o modelo de linguagem de borda MiniCPM com apenas 2B de parâmetros, alcançando um desempenho mais forte com um tamanho menor, superando o popular modelo francês Mistral-7B e sendo chamado de "pequeno canhão".
Recentemente, o MiniCPM-Llama3-V2.5, com apenas 8B de parâmetros, também superou modelos maiores como GPT-4V e Gemini Pro em desempenho multimodal abrangente e capacidade de OCR, o que levou a uma acusação de plágio pela equipe de IA da Universidade de Stanford.
Até a semana passada, a OpenAI surpreendeu todos com o lançamento do GPT-4o mini, descrito como "o modelo de pequeno parâmetro mais poderoso e com melhor custo-benefício", trazendo a atenção de todos de volta aos pequenos modelos.
Desde que a OpenAI arrastou o mundo para a imaginação da IA generativa, o desenvolvimento doméstico e internacional sempre girou em torno de uma lógica - permanecer na mesa através da comercialização.
Portanto, entre as várias arenas de opinião pública, o mais notável é que a OpenAI, com sua redução de preços, parece estar entrando na guerra de preços.
Muitas pessoas podem não ter uma ideia clara sobre o preço do GPT-4o mini. O GPT-4o mini custa 15 centavos por 100.000 tokens de entrada e 60 centavos por 100.000 tokens de saída, mais de 60% mais barato que o GPT-3.5 Turbo.
Em outras palavras, gerar um livro de 2.500 páginas com o GPT-4o mini custaria apenas 60 centavos.
O CEO da OpenAI, Sam Altman, também comentou no X que, comparado ao GPT-4o mini, o modelo mais poderoso de dois anos atrás não só tinha uma enorme diferença de desempenho, mas também custava 100 vezes mais para usar.
Enquanto a guerra de preços dos grandes modelos se intensifica, alguns pequenos modelos de código aberto eficientes e econômicos também estão mais propensos a atrair a atenção do mercado, afinal, não é que os grandes modelos sejam inacessíveis, mas os pequenos modelos têm melhor custo-benefício.
Por um lado, com as GPUs globais sendo compradas em massa e até mesmo esgotadas, os pequenos modelos de código aberto com custos de treinamento e implantação mais baixos também são suficientes para gradualmente ganhar vantagem.
Por exemplo, o MiniCPM lançado pela Mianbi Intelligence pode alcançar uma queda acentuada nos custos de inferência graças aos seus parâmetros menores, e até mesmo realizar inferência na CPU, necessitando apenas de uma máquina para treinamento contínuo de parâmetros e uma placa gráfica para ajuste fino de parâmetros, ao mesmo tempo que tem espaço para melhorias contínuas de custos.
Se você é um desenvolvedor experiente, você pode até treinar um modelo vertical para o domínio jurídico construindo seu próprio pequeno modelo, cujo custo de inferência pode ser apenas um milésimo do custo de ajuste fino usando um grande modelo.
A aplicação de alguns "pequenos modelos" de borda permitiu que muitos fabricantes vissem a perspectiva de lucrar primeiro. Por exemplo, a Mianbi Intelligence ajudou o Tribunal Popular Intermediário de Shenzhen a lançar e operar um sistema de julgamento assistido por inteligência artificial, provando o valor da tecnologia para o mercado.
Claro, para ser mais preciso, a mudança que começaremos a ver não é uma transição de grandes modelos para pequenos modelos, mas uma transição de modelos de categoria única para uma combinação de modelos, e a escolha do modelo apropriado depende das necessidades específicas da organização, da complexidade da tarefa e dos recursos disponíveis.
Por outro lado, os pequenos modelos são mais fáceis de implantar e integrar em dispositivos móveis, sistemas embarcados ou ambientes de baixo consumo de energia.
Os pequenos modelos têm uma escala de parâmetros relativamente pequena e, em comparação com os grandes modelos, têm menor demanda por recursos computacionais (como poder de computação de IA, memória, etc.), podendo funcionar mais suavemente em dispositivos de borda com recursos limitados. Além disso, os dispositivos de borda geralmente têm requisitos mais extremos para problemas como consumo de energia e geração de calor, e os pequenos modelos especialmente projetados podem se adaptar melhor às limitações dos dispositivos de borda.
O CEO da Honor, Zhao Ming, disse que devido às limitações do poder computacional de IA na borda, os parâmetros podem estar entre 1B e 10B, enquanto a capacidade de computação em nuvem dos grandes modelos de rede pode chegar a 10-100 bilhões, ou até mais, e essa capacidade é a diferença entre os dois.
O telefone está em um espaço muito limitado, certo? Ele suporta 7 bilhões em um ambiente de bateria limitada, dissipação de calor limitada e armazenamento limitado, imagine quantas restrições existem, certamente é o mais difícil.
Também revelamos os heróis por trás da operação da IA da Apple, onde um pequeno modelo de 3B ajustado é dedicado a tarefas como resumo e polimento, e com o suporte de adaptadores, tem capacidade superior ao Gemma-7B, adequado para execução em terminais de telefone.
Então vemos que Andrej Karpathy, ex-gênio da OpenAI, recentemente fez um julgamento de que a competição pelo tamanho do modelo vai "involuir ao contrário", não ficando cada vez maior, mas competindo por quem é menor e mais flexível.
Como os pequenos modelos podem vencer os grandes
A previsão de Andrej Karpathy não é infundada.
Nesta era centrada em dados, os modelos estão rapidamente se tornando maiores e mais complexos, e a maior parte dos supermodelos treinados com grandes quantidades de dados (como o GPT-4) é na verdade usada para memorizar uma grande quantidade de detalhes irrelevantes, ou seja, decorar material.
No entanto, modelos ajustados podem até "vencer os grandes sendo pequenos" em tarefas específicas, com um nível de utilidade comparável a muitos "supermodelos".
O CEO da Hugging Face, Clem Delangue, também sugeriu que até 99% dos casos de uso podem ser resolvidos usando pequenos modelos e previu que 2024 será o ano dos pequenos modelos de linguagem.
Antes de examinar as razões, precisamos primeiro explicar alguns conhecimentos.
Em 2020, a OpenAI propôs uma famosa lei em um artigo: a lei de escala, que afirma que à medida que o tamanho do modelo aumenta, seu desempenho também aumenta. Com o lançamento de modelos como o GPT-4, as vantagens da lei de escala também se tornaram gradualmente aparentes.
Pesquisadores e engenheiros no campo da IA acreditam que aumentar o número de parâmetros do modelo pode melhorar ainda mais a capacidade de aprendizado e generalização do modelo. Assim, testemunhamos modelos escalando de dezenas de bilhões de parâmetros para centenas de bilhões, e até mesmo escalando para modelos de trilhões de parâmetros.
No mundo da IA, o tamanho do modelo não é o único padrão para medir sua inteligência.
Pelo contrário, um pequeno modelo bem projetado, através da otimização de algoritmos, melhoria da qualidade dos dados e adoção de técnicas avançadas de compressão, muitas vezes pode demonstrar desempenho comparável ou até superior aos grandes modelos em tarefas específicas.
Essa estratégia de vencer os grandes sendo pequeno está se tornando uma nova tendência no campo da IA. Entre elas, melhorar a qualidade dos dados é uma das maneiras pelas quais os pequenos modelos podem vencer os grandes.
Satish Jayanthi, CTO e co-fundador da Coalesce, descreveu assim o efeito dos dados nos modelos:
Se tivéssemos LLMs no século 17 e perguntássemos ao ChatGPT se a Terra é redonda ou plana, ele responderia que a Terra é plana porque os dados que fornecemos o fizeram acreditar que isso é um fato. Os dados que fornecemos aos LLMs e a maneira como os treinamos afetarão diretamente sua saída.
Para produzir resultados de alta qualidade, os grandes modelos de linguagem precisam ser treinados com dados de alta qualidade e direcionados para tópicos e domínios específicos. Assim como os alunos precisam de livros didáticos de qualidade para aprender, os LLMs também precisam de fontes de dados de qualidade.