Quando a violência não produz mais milagres, os grandes modelos estão presos na maldição da tecnologia
O aumento absoluto de parâmetros talvez não seja a única solução para a implementação de grandes modelos. Essa frase está se tornando gradualmente um consenso na indústria de grandes modelos.
Entre eles, o primeiro gargalo no caminho de aumentar os parâmetros é o maior vencedor deste banquete - NVIDIA.
Recentemente, um relatório de pesquisa da Meta mostrou que: seu mais recente modelo Llama 3 com 405 bilhões de parâmetros, ao ser treinado em um cluster de 16.384 GPUs NVIDIA H100, experimentou 419 falhas inesperadas em 54 dias, com uma média de uma falha a cada três horas durante o treinamento. Ao mesmo tempo, cada falha de GPU individual interrompia todo o processo de treinamento, levando a um reinício do treinamento.
Em termos simples, a quantidade atual de parâmetros dos grandes modelos já está se aproximando do limite que o hardware pode suportar. Mesmo com um número infinito de GPUs, não é mais possível resolver o problema de poder computacional dos grandes modelos durante o treinamento. Se continuarmos correndo loucamente pelo caminho de expandir os parâmetros, o processo de treinamento se tornará um recomeço infinito, como Sísifo empurrando a pedra.
O hardware aumentou a dificuldade de expansão dos grandes modelos. Em cenários específicos, o grau de inteligência não é mais proporcional ao número de parâmetros, o que coloca um grande ponto de interrogação nesta festa violenta do ponto de vista prático.
Os cenários dos grandes modelos estão se tornando cada vez mais complexos, especializados e fragmentados. Querer um modelo que possa responder a perguntas de conhecimento geral e resolver problemas em áreas especializadas é quase uma fantasia.
Uma dimensão técnica de comparação favorita usada por um fabricante nacional de grandes modelos é: comparar a apreciação de poesia e piadas idiotas com o GPT-4. Quase sem exceção, independentemente do tamanho do modelo ou se é um modelo de código aberto reempacotado, os grandes modelos domésticos superam o "número um do mundo" em todos os aspectos. Até mesmo nas questões mais básicas de conhecimento literário, como a relação entre Lu Xun e Zhou Shuren, os melhores grandes modelos não conseguem superar um mecanismo de busca tradicional.
Voltando às aplicações práticas, o triângulo impossível da comercialização derramou um balde de água fria sobre os crentes em parâmetros.
Nas aplicações reais, além do grau de inteligência do modelo, os gerentes de produto também precisam considerar dois fatores principais: velocidade e custo. Geralmente, um tempo de resposta de 1 segundo em perguntas e respostas, 99% de precisão e um modelo de negócios que possa equilibrar os custos seriam condições necessárias para a sobrevivência de um grande modelo.
No entanto, usar a abordagem de grandes parâmetros para aumentar a inteligência geralmente significa que quanto maior o grau de inteligência, mais lenta será a velocidade de resposta do produto e maior será o custo, e vice-versa.
Se permitirmos que os parâmetros se expandam sem limites, a IA inevitavelmente se tornará uma guerra de capital, mas o custo da expansão excederá em muito qualquer competição comercial em um estágio equivalente na história... Para os jogadores que já pisaram no acelerador, a única maneira de não perder muito é aumentar as apostas a um nível que os concorrentes não possam acompanhar.
Assim, diante de um teto que se aproxima, o foco da indústria começa a mudar: se o modelo universal não existe e a violência não produz milagres, para onde a indústria deve ir?
O momento do Modelo T dos grandes modelos: CoE ou MoE?
Quando a viabilidade de um grande modelo realizar tarefas gerais e especializadas simultaneamente foi bloqueada, a colaboração e divisão de trabalho entre múltiplos modelos tornou-se o tema principal da segunda fase da indústria.
Em 1913, a Ford Company introduziu criativamente o conceito de linha de abate na indústria automobilística, desenvolvendo a primeira linha de montagem do mundo. A produção de automóveis passou da montagem manual por mestres artesãos para um processo industrializado, reduzindo o tempo de produção de um carro em quase 60 vezes e o preço de venda em mais da metade. A fabricação de automóveis entrou assim em uma nova era.
O mesmo momento do Modelo T está ocorrendo na indústria de grandes modelos.
Tomando o cenário mais típico de tradução como exemplo, uma boa tradução deve atingir três níveis: fidelidade, expressividade e elegância. No mundo dos grandes modelos, os modelos de tradução tradicionais só podem alcançar a fidelidade, enquanto a expressividade e a elegância dependem de modelos de escrita.
No entanto, sobre como realizar a divisão de trabalho entre múltiplos modelos, a indústria se dividiu em duas facções distintas: a aliança vertical e a aliança horizontal.
A abordagem técnica da aliança vertical é o MoE.
O chamado MoE (Mixture-of-Experts) é um modelo que combina vários modelos especializados em áreas específicas em um super modelo. Já em 2022, o Google propôs o grande modelo MoE Switch Transformer, que com 1.571 bilhões de parâmetros, mostrou maior eficiência de amostra (mais preciso e sem aumento significativo do custo computacional) em tarefas de pré-treinamento em comparação com o modelo T5-XXL (11 bilhões).
Além disso, o famoso hacker americano George Hotz e o criador do PyTorch, Soumith Chintala, afirmaram sucessivamente que o GPT-4 também é composto por 8 modelos MoE com 220 bilhões de parâmetros cada, formando um grande modelo de 1.760 bilhões de parâmetros, não sendo estritamente um modelo de "um trilhão".
No entanto, essa abordagem de 8 em 1 também faz com que o design e cada atualização do MoE exijam enormes recursos. É como escalar montanhas diariamente: a dificuldade de escalar o Monte Everest de 8.848m de altura está longe de ser a soma do esforço necessário para escalar 8 vezes o Monte Yandang de 1.108m de altitude. Portanto, geralmente apenas as principais empresas de tecnologia de IA com vantagens absolutas em todas as 8 áreas têm capacidade de participar.
Assim, à medida que o MoE gradualmente se torna um jogo de oligopólios, uma nova abordagem técnica surge - o CoE da aliança horizontal.
CoE (Collaboration-of-Experts) é um modelo de colaboração de especialistas. Em termos simples, uma única entrada se conecta a vários modelos, e antes da análise do modelo, há uma etapa de reconhecimento de intenção, que então determina qual modelo ou combinação de modelos será usado para a tarefa. Em comparação com o MoE, a maior vantagem do CoE é que os vários modelos especializados podem trabalhar em colaboração, mas não existe uma relação de vinculação.
Em comparação com o MoE, o CoE tem mais colaboração entre os modelos especializados individuais, uma divisão de trabalho mais precisa, e é mais flexível e especializado. Essa abordagem, em comparação com o MoE, tem maior eficiência e menor custo de uso de API e tokens.
Então, qual abordagem prevalecerá, MoE ou CoE?
Outra abordagem para resolver o problema: o que determina a experiência de inteligência do usuário?
Quando Zhou Hongyi se transformou em um guru da IA vestindo vermelho, dentro da 360, o debate sobre as abordagens CoE e MoE também se repetiu várias vezes no último ano e meio.
Se seguisse o caminho do MoE, os anos de acúmulo tecnológico da 360 seriam suficientes para lutar essa batalha.
Mas seguir o CoE significaria compartilhar o bolo com mais fabricantes de grandes modelos.
"Três sapateiros com suas inteligências combinadas igualam Zhuge Liang" inspirou Liang Zhihui, vice-presidente do Grupo 360, a apostar no CoE:
Mesmo que uma empresa alcance a "excelência em 8 áreas" como a OpenAI, ainda haverá pontos fracos inevitáveis. Mas se as capacidades dos melhores fabricantes de grandes modelos forem combinadas através da capacidade CoE, isso significa a realização de vantagens complementares e verdadeira excelência em 18 áreas.
Os resultados dos testes mostram que a versão beta do assistente de IA baseado na capacidade CoE AI da 360, após incorporar as forças de 16 dos melhores grandes modelos domésticos, incluindo o 360 Zhinao, já superou o GPT-4 em 11 indicadores de teste de capacidade individual.
Ao mesmo tempo, mesmo "terceirizando" a capacidade do modelo de base, a 360 ainda pode encontrar seu próprio posicionamento único na onda do CoE.
Do ponto de vista do produto, o assistente de IA do produto CoE da 360 pode ser dividido em duas partes: a acumulação de corpus e tecnologia de algoritmos depende principalmente da integração de 16 grandes modelos domésticos, incluindo o 360 Zhinao, semelhante a forças especiais com diferentes divisões de trabalho; enquanto a 360 desempenha o papel de comandante, usando um modelo de reconhecimento de intenção para alcançar uma compreensão mais precisa da intenção do usuário; através de modelos de decomposição e agendamento de tarefas, realiza o agendamento inteligente de uma rede de muitos modelos especializados (100+ LLM), um centro de conhecimento em escala de centenas de bilhões e mais de 200 ferramentas de terceiros, alcançando assim maior flexibilidade e eficiência do que o MoE.