A fumaça difusa na verdade esconde um fato: ao contrário de muitas grandes empresas que queimam dinheiro com subsídios, a DeepSeek é lucrativa.
Por trás disso, a DeepSeek inovou de forma abrangente na arquitetura do modelo. Ela propôs uma nova arquitetura MLA (### um novo mecanismo de atenção latente multi-cabeça) que reduz o uso de memória para 5-13% da arquitetura MHA mais comumente usada no passado. Ao mesmo tempo, sua estrutura DeepSeekMoESparse original também reduz o custo computacional ao mínimo. Tudo isso acabou levando a uma redução de custos.
No Vale do Silício, a DeepSeek é chamada de "força misteriosa do Oriente". O analista-chefe da SemiAnalysis acredita que o artigo DeepSeek V2 "pode ser o melhor do ano". O ex-funcionário da OpenAI Andrew Carr considera o artigo "cheio de sabedoria surpreendente" e aplicou suas configurações de treinamento ao seu próprio modelo. Jack Clark, ex-chefe de políticas da OpenAI e co-fundador da Anthropic, acredita que a DeepSeek "contratou um grupo de gênios insondáveis" e que os grandes modelos fabricados na China "se tornarão uma força que não pode ser ignorada, assim como drones e carros elétricos".
Na onda de IA em grande parte impulsionada pelo Vale do Silício, esta é uma situação rara. Vários profissionais do setor nos disseram que ### essa forte reação vem da inovação no nível da arquitetura, uma tentativa rara para empresas chinesas de grandes modelos e até mesmo modelos de base de código aberto globais. Um pesquisador de IA afirmou que a arquitetura de Atenção quase não foi modificada com sucesso em anos desde sua proposta, muito menos validada em larga escala. "Essa é até uma ideia que seria cortada na tomada de decisão, porque a maioria das pessoas carece de confiança."
Por outro lado, os grandes modelos domésticos raramente se aventuraram em inovações no nível da arquitetura antes, também porque poucas pessoas tentaram ativamente quebrar aquele preconceito: ### os EUA são melhores em inovação tecnológica de 0 a 1, enquanto a China é melhor em inovação de aplicação de 1 a 10. Além disso, esse comportamento é muito desvantajoso - uma nova geração de modelos naturalmente será desenvolvida em alguns meses, e as empresas chinesas só precisam seguir e fazer boas aplicações. Inovar na estrutura do modelo significa que não há caminho a seguir, é preciso passar por muitos fracassos, e os custos de tempo e econômicos são enormes.
A DeepSeek é obviamente uma rebelde. Em meio a um clamor de que a tecnologia de grandes modelos inevitavelmente convergirá e que seguir é um atalho mais inteligente, a DeepSeek valoriza o valor acumulado nos "desvios" e acredita que os empreendedores chineses de grandes modelos podem se juntar ao fluxo de inovação tecnológica global além da inovação de aplicações.
Muitas das escolhas da DeepSeek são diferentes. Até agora, entre as 7 empresas chinesas de startups de grandes modelos, é a única que abandonou a abordagem de "querer tudo", focando apenas em pesquisa e tecnologia sem fazer aplicações para o consumidor, e também é a única que não considerou totalmente a comercialização, optando firmemente pelo código aberto e nem sequer levantou fundos. Isso faz com que seja frequentemente esquecida fora da mesa, mas por outro lado, é frequentemente promovida de forma orgânica pelos usuários na comunidade.
Como exatamente a DeepSeek se formou? Para isso, entrevistamos o fundador da DeepSeek, Liang Wenfeng, que raramente aparece em público.
Este fundador nascido nos anos 80, que tem se dedicado à pesquisa tecnológica nos bastidores desde a era da Phantoscope, continua seu estilo discreto na era DeepSeek, "lendo artigos, escrevendo código e participando de discussões em grupo" todos os dias como todos os outros pesquisadores.
Diferentemente de muitos fundadores de fundos quantitativos que têm experiência em fundos de hedge no exterior e vêm principalmente de física, matemática e outros campos, Liang Wenfeng sempre teve um background local, tendo estudado anteriormente inteligência artificial no Departamento de Engenharia Eletrônica da Universidade de Zhejiang.
Vários profissionais do setor e pesquisadores da DeepSeek nos disseram que Liang Wenfeng é uma pessoa muito rara no campo da IA chinesa atual que "possui fortes habilidades de engenharia de infraestrutura e pesquisa de modelos, além de poder mobilizar recursos", "pode fazer julgamentos precisos de alto nível e também superar pesquisadores de linha de frente nos detalhes", tem "uma capacidade de aprendizado assustadora" e ao mesmo tempo "não se parece nada com um chefe, mas mais com um geek".
Esta é uma entrevista particularmente rara. Na entrevista, este idealista tecnológico forneceu uma voz que é especialmente escassa no cenário tecnológico chinês atual: ### ele é um dos poucos que coloca a "visão do certo e errado" antes da "visão de interesses" e nos lembra de ver a inércia da era e colocar a "inovação original" na agenda.
Há um ano, quando a DeepSeek acabava de entrar em cena, entrevistamos Liang Wenfeng pela primeira vez: 《A loucura da Phantoscope: O caminho de um gigante invisível da IA para grandes modelos》. Se naquela época aquela frase ### "é necessário abraçar loucamente a ambição e ainda ser loucamente sincero" ainda era um belo slogan, um ano se passou e já está se tornando uma ação.
Segue a parte do diálogo:
### Como o primeiro tiro da guerra de preços foi disparado?
"Correntes Ocultas": Após o lançamento do modelo DeepSeek V2, rapidamente desencadeou uma sangrenta guerra de preços de grandes modelos. Alguns dizem que vocês são um peixe-gato na indústria.
Liang Wenfeng: Não pretendíamos ser um peixe-gato, apenas acidentalmente nos tornamos um.
"Correntes Ocultas": Esse resultado surpreendeu vocês?
Liang Wenfeng: Muito surpreendente. Não esperávamos que o preço fosse tão sensível para todos. Estávamos apenas seguindo nosso próprio ritmo e calculando os custos para definir o preço. Nosso princípio é não perder dinheiro, mas também não obter lucros exorbitantes. Esse preço também tem um pequeno lucro acima do custo.
"Correntes Ocultas": Cinco dias depois, a Zhipu AI seguiu, e depois vieram ByteDance, Alibaba, Baidu, Tencent e outras grandes empresas.
Liang Wenfeng: A Zhipu AI reduziu o preço de um produto de entrada, enquanto seu modelo de nível semelhante ao nosso ainda é muito caro. A ByteDance foi realmente a primeira a seguir. Eles reduziram o preço do modelo principal para o mesmo que o nosso, o que então desencadeou reduções de preços de outras grandes empresas. Como os custos dos modelos das grandes empresas são muito maiores que os nossos, não esperávamos que alguém perdesse dinheiro fazendo isso, e no final se transformou na lógica de queimar dinheiro com subsídios da era da internet.
"Correntes Ocultas": Do ponto de vista externo, a redução de preços parece uma disputa por usuários, como as guerras de preços típicas da era da internet.
Liang Wenfeng: Disputar usuários não é nosso principal objetivo. Reduzimos os preços por um lado porque, ao explorar a estrutura da próxima geração de modelos, os custos caíram primeiro, e por outro lado também sentimos que tanto as APIs quanto a IA devem ser inclusivas e acessíveis a todos.
"Correntes Ocultas": Antes disso, a maioria das empresas chinesas copiaria diretamente a estrutura Llama desta geração para fazer aplicações. Por que vocês decidiram começar pela estrutura do modelo?
Liang Wenfeng: Se o objetivo fosse fazer aplicações, usar a estrutura Llama e lançar produtos rapidamente também seria uma escolha razoável. Mas nosso destino é a AGI, o que significa que precisamos pesquisar novas estruturas de modelo para alcançar capacidades de modelo mais fortes com recursos limitados. Esta é uma das pesquisas básicas necessárias para escalar para modelos maiores. Além da estrutura do modelo, também fizemos muitas outras pesquisas, incluindo como construir dados, como tornar o modelo mais parecido com humanos, etc., que estão refletidas nos modelos que lançamos. Além disso, a estrutura do Llama provavelmente já está duas gerações atrás do nível avançado internacional em termos de eficiência de treinamento e custo de inferência.
"Correntes Ocultas": De onde vem principalmente essa diferença de gerações?
Liang Wenfeng: Primeiro, há uma diferença na eficiência de treinamento. Estimamos que o melhor nível doméstico pode ter uma diferença de duas vezes em relação ao melhor nível internacional em termos de estrutura de modelo e dinâmica de treinamento, o que significa que precisamos consumir o dobro de poder computacional para alcançar o mesmo efeito. Além disso, pode haver uma diferença de duas vezes na eficiência dos dados, o que significa que precisamos consumir o dobro de dados de treinamento e poder computacional para alcançar o mesmo efeito. Juntos, isso significa consumir 4 vezes mais poder computacional. O que precisamos fazer é continuar reduzindo essas diferenças.
"Correntes Ocultas": A maioria das empresas chinesas escolhe fazer tanto modelos quanto aplicações. Por que a DeepSeek atualmente escolhe fazer apenas pesquisa e exploração?
Liang Wenfeng: Porque acreditamos que o mais importante agora é participar da onda global de inovação. Por muitos anos, as empresas chinesas se acostumaram a deixar outros fazerem inovação tecnológica e nós pegarmos para monetizar com aplicações, mas isso não é algo natural. Nesta onda, nosso ponto de partida não é aproveitar para ganhar dinheiro, mas chegar à fronteira da tecnologia para impulsionar o desenvolvimento de todo o ecossistema.
"Correntes Ocultas": A inércia cognitiva deixada para a maioria das pessoas pelas eras da internet e da internet móvel é que os EUA são bons em inovação tecnológica, enquanto a China é melhor em fazer aplicações.
Liang Wenfeng: Acreditamos que com o desenvolvimento econômico, ### a China também deve gradualmente se tornar uma contribuidora, em vez de sempre pegar carona. Nas últimas três décadas de ondas de TI, basicamente não participamos de verdadeira inovação tecnológica. ### Nos acostumamos com a Lei de Moore caindo do céu, deitados em casa e a cada 18 meses surgem hardware e software melhores. A Lei de Escala também está sendo tratada assim.
Mas na verdade, isso foi criado geração após geração pela comunidade tecnológica liderada pelo Ocidente. Apenas porque não participamos desse processo antes, acabamos ignorando sua existência.