"Fazer grande e forte", e também intensamente "fazer pequeno e refinado".
Superar o GPT-4 já não é o único KPI, os grandes modelos entraram em um período crucial de competição pelo mercado. Para impressionar os usuários, não basta apenas exibir força tecnológica, é preciso provar que o próprio modelo tem melhor custo-benefício - menor modelo com desempenho equivalente, maior desempenho e economia com parâmetros equivalentes.
Na verdade, essa tendência tecnológica de "miniaturização anti-competitiva de grandes modelos" começou a se desenvolver no segundo semestre do ano passado.
Os modificadores das regras do jogo são duas empresas. Uma é a startup francesa de IA Mistral AI, que surpreendeu todos em setembro do ano passado ao derrotar o Llama 2 de 13 bilhões de parâmetros com um grande modelo de 7 bilhões de parâmetros, ganhando fama na comunidade de desenvolvedores; a outra é a startup chinesa de IA Mianbi Intelligence, que lançou em fevereiro deste ano o modelo de lado do cliente ainda mais condensado MiniCPM, alcançando desempenho superior ao Llama 2 13B com apenas 2,4 bilhões de parâmetros.
Ambas as startups têm boa reputação na comunidade de desenvolvedores, com vários modelos no topo das listas de código aberto. Especialmente a Mianbi Intelligence, incubada no Laboratório de Processamento de Linguagem Natural da Universidade Tsinghua, causou alvoroço este ano quando suas equipes de universidades de ponta dos EUA "encapsularam" seu modelo multimodal, com o trabalho original da Mianbi sendo reconhecido nos círculos acadêmicos nacionais e internacionais, elevando o perfil dos modelos de IA de código aberto produzidos na China.
A Apple também começou a pesquisar modelos de lado do cliente que se adaptam melhor aos smartphones desde o ano passado. A OpenAI, que sempre seguiu uma rota de expansão agressiva e extensiva, é um novo participante relativamente inesperado. O lançamento do modelo leve GPT-4 mini na semana passada significa que o líder dos grandes modelos está descendo voluntariamente do "pedestal" e começando a seguir as tendências da indústria, tentando alavancar um mercado mais amplo com modelos mais baratos e acessíveis.
2024 será um ano crucial para a "miniaturização" dos grandes modelos!
I. A "Lei de Moore" da era dos grandes modelos: a eficiência é a chave para a sustentabilidade
O desenvolvimento atual de grandes modelos está preso a uma inércia: ### grande poder produz milagres.
Em 2020, um artigo da OpenAI verificou que existe uma forte correlação entre o desempenho do modelo e sua escala. Simplesmente ingerindo mais dados de alta qualidade e treinando modelos de maior volume, é possível obter maior desempenho.
Seguindo esse caminho simples mas eficaz, nos últimos dois anos houve uma corrida frenética global para perseguir modelos cada vez maiores. Isso plantou as sementes de uma hegemonia algorítmica, onde apenas equipes com fundos e poder computacional abundantes têm o capital para participar da competição a longo prazo.
No ano passado, o CEO da OpenAI, Sam Altman, revelou que o custo de treinamento do GPT-4 foi de pelo menos ### 100 milhões de dólares. Na ausência de um modelo de negócios altamente lucrativo, mesmo as grandes empresas de tecnologia com recursos abundantes teriam dificuldade em suportar investimentos de longo prazo sem considerar os custos. O ambiente ecológico não pode tolerar um jogo de queima de dinheiro sem fundo.
A lacuna de desempenho entre os principais grandes modelos de linguagem está visivelmente diminuindo. Embora o GPT-4 permaneça firmemente em primeiro lugar, a diferença nas pontuações de benchmark com o Claude 3 Opus e o Gemini 1.5 Pro não é abismal. Em algumas capacidades, os grandes modelos de dezenas de bilhões podem até alcançar desempenho superior. O tamanho do modelo já não é o único fator decisivo que afeta o desempenho.
Não é que os grandes modelos de ponta careçam de atratividade, é que os modelos leves simplesmente oferecem melhor custo-benefício.
A imagem abaixo é um gráfico de tendência de custos de inferência de IA compartilhado pela engenheira de IA Karina Ngugen em sua plataforma social no final de março deste ano, ilustrando claramente a relação entre o desempenho dos grandes modelos de linguagem no benchmark MMLU e seus custos desde 2022: com o passar do tempo, os modelos de linguagem obtêm pontuações de precisão MMLU mais altas, enquanto os custos associados caem drasticamente. Os novos modelos atingem uma precisão de cerca de 80%, com custos várias ordens de magnitude menores do que há alguns anos.
O mundo está mudando muito rapidamente, e nos últimos meses houve uma nova onda de modelos leves economicamente eficientes.
"A competição pelo tamanho dos grandes modelos de linguagem está se intensificando - ao contrário!" O guru da tecnologia de IA Andrej Karpathy aposta: "Veremos alguns modelos muito, muito pequenos 'pensando' muito bem e de forma confiável."
Capacidade do modelo ÷ parâmetros do modelo envolvidos no cálculo = densidade de conhecimento, esta dimensão de medição pode ser usada para representar a forte inteligência que modelos com o mesmo número de parâmetros podem possuir. O grande modelo GPT-3 lançado em junho de 2020 tinha 175 bilhões de parâmetros. Em fevereiro deste ano, o modelo MiniCPM-2.4B da Mianbi Intelligence, que alcança desempenho equivalente, já reduziu o número de parâmetros para 2,4 bilhões, o que equivale a um aumento de cerca de ### 86 vezes na densidade de conhecimento.
Com base nessas tendências, Liu Zhiyuan, professor associado de longa data do Departamento de Ciência da Computação da Universidade Tsinghua e cientista-chefe da Mianbi Intelligence, propôs recentemente um ponto de vista interessante: ### a era dos grandes modelos tem sua própria "Lei de Moore".
Especificamente, ### com o desenvolvimento colaborativo de dados, poder computacional e algoritmos, a densidade de conhecimento dos grandes modelos continua a aumentar, dobrando em média a cada 8 meses.
Ao aumentar a densidade dos circuitos nos chips, impulsionando a evolução dos dispositivos de computação com poder computacional equivalente de supercomputadores que ocupavam várias salas para smartphones que cabem no bolso, o desenvolvimento de grandes modelos seguirá uma regra semelhante. Liu Zhiyuan nomeou esta lei orientadora que ele propôs como a "Lei de Mianbi".
Seguindo esta tendência, ### para treinar um modelo com centenas de bilhões de parâmetros, as capacidades que ele possui poderão ser alcançadas por um modelo com 50 bilhões de parâmetros em 8 meses, e em mais 8 meses, apenas 25 bilhões de parâmetros serão necessários para fazê-lo.
II. Dividindo forças: guerra de preços de código fechado em pleno vapor, código aberto em tripé entre China, EUA e Europa
Atualmente, os jogadores que entraram na competição de miniaturização de grandes modelos estão dividindo suas forças em várias frentes.
OpenAI, Google e Anthropic seguiram o caminho de código fechado. Seus modelos flagship GPT-4, Claude 3.5 Sonnet e Gemini 1.5 Pro controlam o nível de desempenho mais alto, com esses modelos tendo escalas de parâmetros na ordem de centenas de bilhões ou até trilhões.
Os modelos leves são versões simplificadas de seus modelos flagship. Após o lançamento da OpenAI na semana passada, o GPT-4 mini tornou-se a opção com melhor custo-benefício abaixo de 10B no mercado, superando o Gemini Flash e o Claude Haiku em desempenho. Para consumidores, substituiu o GPT-3.5 para uso gratuito, e para empresas, reduziu drasticamente o preço da API, tornando o limiar para adoção da tecnologia de grandes modelos mais baixo.
Andriy Burkov, autor de "Machine Learning Engineering", inferiu com base no preço que o GPT-4 mini tem cerca de 7B parâmetros. Li Dahai, CEO da Mianbi Intelligence, especula que o GPT-4 mini é um modelo "MoE amplo" com um número relativamente grande de especialistas, em vez de um modelo de lado do cliente, posicionado como um modelo de nuvem de alto custo-benefício para reduzir drasticamente o custo de implementação industrial de grandes modelos.