Divisão das direções dos grandes modelos de IA
Atualmente, a maioria das empresas utiliza a IA através de grandes modelos de linguagem geral, que são treinados com dados específicos do setor para criar aplicações diferenciadas. No entanto, isso pode ser uma solução simplista. Mike Knoop, cofundador da Zapier, acredita que expandir os grandes modelos de linguagem essencialmente só promove o desenvolvimento da "memória" como forma de inteligência, o que é diferente da inteligência real. Isso não permite compreender os cenários e necessidades das empresas, portanto, não pode aproveitar totalmente o valor da IA.
Além disso, a curva de aumento do poder computacional das GPUs em relação à melhoria das capacidades dos grandes modelos de linguagem pode apresentar retornos marginais decrescentes. Quando os dados públicos simples se esgotarem, tentar ultrapassar os concorrentes na área de IA apenas com grandes modelos de linguagem geral se tornará uma ilusão.
Isso é ainda mais desfavorável para as empresas. Na busca por novas tecnologias, as empresas frequentemente invertem as prioridades, começando com a intenção de resolver problemas específicos, mas acabando em uma corrida por conceitos, esquecendo-se dos problemas fundamentais.
A solução para esse problema está nas mãos das empresas de IA. Sarah Tavel, sócia da Benchmark, acredita que a melhor direção de desenvolvimento é empreender com grandes modelos baseados nas necessidades específicas dos clientes. Alex Wang, cofundador da Scale AI, acredita que os dados são o gargalo do desempenho dos modelos de IA, não os algoritmos ou a computação. Os dados vêm, em última análise, de múltiplos setores verticais, o que significa que as empresas de IA devem se aprofundar em domínios industriais e desenvolver grandes modelos setoriais que atendam às necessidades das empresas.
Esse processo tem dois pontos-chave:
-
Problema de dados: As empresas de IA precisam "entender" os usuários e o setor. Muitas empresas têm grandes quantidades de dados linguísticos subutilizados.
-
Problema de gestão e iteração: Devido à diversidade de setores e cenários, atualmente é difícil para uma única empresa construir grandes modelos abrangendo todas as áreas.
Tanto a Fourth Paradigm quanto Mike Knoop da Zapier apontam a automação como fundamental. Em termos técnicos, AutoML, síntese de programas e busca de arquitetura neural envolvem processos de automação e otimização para reduzir a intervenção humana e aumentar a eficiência e eficácia. Mike Knoop acredita que a exploração da AGI deve ser baseada na síntese de programas e na busca de arquitetura neural, enquanto Dai Wenyuan, fundador da Fourth Paradigm, menciona que a tecnologia fundamental para construir inúmeros grandes modelos setoriais é o AutoML.
Dai Wenyuan chama o AutoML de "uma arte do fracasso", dizendo que ele pode ter um valor maior porque a Fourth Paradigm passou por muitos cenários e sabe como fazer com que dados e modelos se aproximem das necessidades de cenários específicos. O sucesso se transforma em resultados, o fracasso em nutrientes, acelerando a iteração com base na automação. Como Alex Wang diz: "O aprendizado de máquina é um framework de lixo entra, lixo sai." Mas com dados setoriais de alta qualidade e a capacidade de correção contínua, eventualmente será alcançada uma implementação confiável de grandes modelos setoriais.
Fazendo diferentes modelos de IA: ideias, abordagens e perspectivas
Algumas empresas focadas em grandes modelos gerais, representadas pela OpenAI, tendem a se desenvolver horizontalmente, com o grande modelo sendo tudo. Em termos de modelo de negócios, elas simplesmente vendem as capacidades do grande modelo. Em comparação, empresas como Fourth Paradigm e Glean seguem um caminho diferente, usando tecnologia de IA para ajudar as empresas a tomar decisões em certas áreas para melhorar a eficácia geral do trabalho. Seus modelos de negócios também são diferentes.
A Glean fornece uma plataforma de busca empresarial e gestão de conhecimento baseada em tecnologia de IA, integrando funcionalidades de vários aplicativos de terceiros para se tornar parte do fluxo de trabalho. Ela também pode ajudar as empresas a treinar modelos de IA exclusivos com seus próprios dados, baseados no "modelo de conhecimento confiável" desenvolvido pela própria Glean.
A Fourth Paradigm, por sua vez, se aprofunda mais na previsão e gestão de problemas de negócios essenciais do setor. Sua plataforma de grandes modelos setoriais, AIOS 5.0, constrói grandes modelos de base setorial a partir de dados multimodais de vários cenários industriais. Em termos de capacidade, concentra-se em "Prever o Próximo X", onde X representa a lógica e os resultados de grandes indústrias. Em termos de uso, fornece ferramentas de modelagem de baixo limiar, um sistema de serviços de inovação científica e outras capacidades para alcançar a construção, implantação e gestão de serviços de grandes modelos setoriais de ponta a ponta.
Este é um caso típico de desenvolvimento de empresas chinesas de IA baseado no contexto industrial. Dai Wenyuan acredita que a China tem uma grande vantagem em termos de cenários e dados, e após cobrir cenários suficientes, a combinação desses modelos também pode realizar a AGI. Em comparação, muitos grandes modelos setoriais populares ainda são grandes modelos de linguagem setorial, grandes mas não precisos. Ao dividir em cenários mais precisos, embora superficialmente pareça necessário estabelecer muitos grandes modelos, a carga de dados para cada cenário preciso é limitada e, com a ajuda de tecnologias de automação, acaba-se abrindo um novo caminho para o desenvolvimento da AGI no nível de aplicação.
Mike Knoop acredita que a AGI encontrou obstáculos após um rápido avanço porque depende demais de grandes modelos de linguagem, definindo a AGI como um sistema capaz de realizar a maioria das tarefas. Mas a AGI deveria, na verdade, se concentrar mais em adquirir novas habilidades de forma eficiente e resolver problemas abertos em vários cenários.
Jensen Huang, CEO da NVIDIA, mencionou que, com o desenvolvimento de grandes modelos, os computadores estão passando de orientados por instruções para orientados por intenções, "no futuro, os aplicativos farão e executarão de maneira semelhante à forma como fazemos as coisas, montando equipes de especialistas, usando ferramentas, raciocinando, planejando e executando nossas tarefas". Essa lógica em si implica universalidade, e os grandes modelos estão entrando no mundo físico, porque as decisões no mundo físico também seguem padrões.
Um exemplo semelhante é a Palantir, originalmente uma empresa de big data para o governo, baseada em análise de dados e modelagem de simulação para auxiliar na tomada de decisões. A tecnologia de IA generativa transformou sua maneira de processar dados, fazendo progressos significativos na automação e tomada de decisões baseadas em dados, acelerando a expansão de seus negócios de IA para empresas. A Fourth Paradigm, por sua vez, estabelece grandes modelos setoriais em cada cenário determinístico, ajudando as empresas a dominar suas próprias aplicações e tomar decisões eficazes.