El humo de la batalla en realidad oculta un hecho: a diferencia de muchas grandes empresas que queman dinero en subsidios, DeepSeek es rentable.
Detrás de esto está la innovación integral de DeepSeek en la arquitectura del modelo. Propuso una nueva arquitectura MLA (un nuevo mecanismo de atención potencial de múltiples cabezas) que reduce el uso de memoria a 5%-13% de la arquitectura MHA más comúnmente utilizada en el pasado. Al mismo tiempo, su estructura DeepSeekMoESparse original también reduce el cálculo al mínimo, todo lo cual finalmente condujo a una reducción de costos.
En Silicon Valley, DeepSeek es conocida como la "fuerza misteriosa del Este". El analista jefe de SemiAnalysis cree que el artículo DeepSeek V2 "podría ser el mejor del año". Andrew Carr, ex empleado de OpenAI, considera que el artículo está "lleno de sabiduría asombrosa" y aplicó su configuración de entrenamiento a su propio modelo. Jack Clark, ex jefe de políticas de OpenAI y cofundador de Anthropic, cree que DeepSeek "ha contratado a un grupo de genios profundamente misteriosos" y también cree que los grandes modelos fabricados en China "se convertirán en una fuerza que no se puede ignorar, al igual que los drones y los vehículos eléctricos".
En la ola de IA impulsada principalmente por Silicon Valley, esta es una situación rara. Varias personas de la industria nos dijeron que esta fuerte respuesta proviene de la innovación a nivel de arquitectura, que es un intento muy raro para las empresas de grandes modelos nacionales e incluso los modelos base de código abierto globales. Un investigador de IA dijo que la arquitectura de Attention casi no se ha modificado con éxito en años desde que se propuso, y mucho menos se ha validado a gran escala. "Esta es incluso una idea que se cortaría al tomar decisiones, porque la mayoría de la gente carece de confianza".
Por otro lado, los grandes modelos nacionales rara vez se han involucrado en la innovación a nivel de arquitectura, también porque pocas personas han intentado activamente romper ese tipo de prejuicio: Estados Unidos es mejor en innovación tecnológica de 0 a 1, mientras que China es mejor en innovación de aplicaciones de 1 a 10. Además, este comportamiento es muy poco rentable: la nueva generación de modelos naturalmente será desarrollada por alguien en unos meses, y las empresas chinas solo necesitan seguir y hacer bien las aplicaciones. Innovar en la estructura del modelo significa que no hay un camino a seguir, se experimentarán muchos fracasos, y los costos de tiempo y económicos son enormes.
DeepSeek es obviamente un rebelde. En medio del clamor de que la tecnología de los grandes modelos inevitablemente convergerá y que seguir es un atajo más inteligente, DeepSeek valora el valor acumulado en los "desvíos" y cree que los emprendedores de grandes modelos chinos pueden unirse a la corriente de innovación tecnológica global además de la innovación en aplicaciones.
Muchas de las decisiones de DeepSeek son diferentes. Hasta ahora, entre las 7 empresas emergentes de grandes modelos en China, es la única que ha abandonado el camino de "querer todo", se ha centrado en la investigación y la tecnología hasta ahora, y no ha hecho aplicaciones para el consumidor. También es la única empresa que no ha considerado completamente la comercialización, ha elegido firmemente el camino de código abierto e incluso no ha recaudado fondos. Esto a menudo la deja fuera de la mesa, pero por otro lado, a menudo se difunde de boca en boca por los usuarios en la comunidad.
¿Cómo se formó exactamente DeepSeek? Para esto, entrevistamos al fundador de DeepSeek, Liang Wenfeng, que rara vez aparece en público.
Este fundador de los 80, que ha estado investigando tecnología detrás de escena desde la era de Phantom, continúa con su estilo discreto en la era de DeepSeek, y como todos los investigadores, "lee artículos, escribe código y participa en discusiones de grupos pequeños" todos los días.
A diferencia de muchos fundadores de fondos cuantitativos que tienen experiencia en fondos de cobertura en el extranjero y provienen principalmente de física, matemáticas y otros campos, Liang Wenfeng siempre ha tenido un trasfondo local y estudió en la dirección de inteligencia artificial del Departamento de Ingeniería Electrónica de la Universidad de Zhejiang en sus primeros años.
Varias personas de la industria e investigadores de DeepSeek nos dijeron que Liang Wenfeng es una persona muy rara en el campo de la IA china actual que "tiene fuertes capacidades de ingeniería de infraestructura y capacidades de investigación de modelos, y también puede movilizar recursos", "puede hacer juicios precisos desde arriba y también superar a los investigadores de primera línea en los detalles". Tiene "una capacidad de aprendizaje aterradora" y al mismo tiempo "no se parece en absoluto a un jefe, sino más bien a un geek".
Esta es una entrevista particularmente rara. En la entrevista, este idealista tecnológico proporcionó una voz que es especialmente escasa en el círculo tecnológico chino actual: es una de las pocas personas que pone la "visión del bien y el mal" antes de la "visión de los intereses y desventajas", y nos recuerda que veamos la inercia de la época y pongamos la "innovación original" en la agenda.
Hace un año, cuando DeepSeek acababa de entrar en escena, entrevistamos a Liang Wenfeng por primera vez: "El loco Phantom: el camino del gran modelo de un gigante invisible de la IA". Si esa frase "Es necesario abrazar locamente la ambición y ser locamente sincero" era entonces un hermoso eslogan, un año después, ya se está convirtiendo en una acción.
A continuación se presenta la parte del diálogo:
¿Cómo se disparó el primer tiro en la guerra de precios?
"Corriente oculta": Después del lanzamiento del modelo DeepSeek V2, rápidamente desencadenó una sangrienta guerra de precios de grandes modelos. Algunos dicen que ustedes son un pez gato en la industria.
Liang Wenfeng: No teníamos la intención de convertirnos en un pez gato, simplemente nos convertimos accidentalmente en uno.
"Corriente oculta": ¿Este resultado los sorprendió?
Liang Wenfeng: Muy sorprendente. No esperábamos que el precio fuera tan sensible para todos. Solo estábamos haciendo las cosas a nuestro propio ritmo y luego calculando los costos para fijar el precio. Nuestro principio es no perder dinero, pero tampoco obtener ganancias exorbitantes. Este precio también tiene un pequeño margen de ganancia por encima del costo.
"Corriente oculta": 5 días después, Zhipu AI siguió, luego ByteDance, Alibaba, Baidu, Tencent y otras grandes empresas.
Liang Wenfeng: Zhipu AI redujo el precio de un producto de nivel de entrada, su modelo del mismo nivel que el nuestro todavía es muy caro. ByteDance fue realmente la primera en seguir. Redujeron el precio de su modelo insignia al mismo que el nuestro, lo que luego desencadenó que otras grandes empresas redujeran sus precios. Debido a que los costos de los modelos de las grandes empresas son mucho más altos que los nuestros, no esperábamos que alguien perdiera dinero haciendo esto, y finalmente se convirtió en la lógica de quemar dinero en subsidios de la era de Internet.
"Corriente oculta": Desde el exterior, la reducción de precios parece ser para atraer usuarios, las guerras de precios en la era de Internet suelen ser así.
Liang Wenfeng: Atraer usuarios no es nuestro objetivo principal. Redujimos los precios por un lado porque en nuestra exploración de la estructura de la próxima generación de modelos, los costos bajaron primero, y por otro lado, también sentimos que tanto las API como la IA deberían ser inclusivas y asequibles para todos.
"Corriente oculta": Antes de esto, la mayoría de las empresas chinas copiarían directamente la estructura Llama de esta generación para hacer aplicaciones. ¿Por qué ustedes eligieron entrar desde la estructura del modelo?
Liang Wenfeng: Si el objetivo es hacer aplicaciones, entonces usar la estructura Llama y lanzar productos rápidamente también es una elección razonable. Pero nuestro destino es AGI, lo que significa que necesitamos investigar nuevas estructuras de modelos para lograr capacidades de modelo más fuertes con recursos limitados. Esta es una de las investigaciones básicas necesarias para escalar a modelos más grandes. Además de la estructura del modelo, también hemos realizado una gran cantidad de otras investigaciones, incluyendo cómo construir datos, cómo hacer que el modelo sea más parecido a los humanos, etc., todo lo cual se refleja en los modelos que hemos lanzado. Además, la estructura de Llama probablemente ya está dos generaciones por detrás del nivel avanzado internacional en términos de eficiencia de entrenamiento y costo de inferencia.
"Corriente oculta": ¿De dónde proviene principalmente esta brecha generacional?
Liang Wenfeng: Primero, hay una brecha en la eficiencia de entrenamiento. Estimamos que el mejor nivel nacional comparado con el mejor nivel internacional puede tener una brecha del doble en la estructura del modelo y la dinámica de entrenamiento, solo este punto significa que tenemos que consumir el doble de potencia de cálculo para lograr el mismo efecto. Además, puede haber una brecha del doble en la eficiencia de los datos, lo que significa que tenemos que consumir el doble de datos de entrenamiento y potencia de cálculo para lograr el mismo efecto. En total, tenemos que consumir 4 veces más potencia de cálculo. Lo que tenemos que hacer es reducir constantemente estas brechas.
"Corriente oculta": La mayoría de las empresas chinas eligen hacer tanto modelos como aplicaciones. ¿Por qué DeepSeek actualmente elige hacer solo investigación y exploración?
Liang Wenfeng: Porque creemos que lo más importante ahora es participar en la ola de innovación global. Durante muchos años, las empresas chinas se acostumbraron a que otros hicieran innovación tecnológica y nosotros la tomáramos para hacer aplicaciones y monetizar, pero esto no es algo natural. En esta ola, nuestro punto de partida no es aprovechar para ganar dinero, sino llegar a la frontera de la tecnología para impulsar el desarrollo de todo el ecosistema.
"Corriente oculta": La inercia cognitiva que la era de Internet y la era del Internet móvil dejaron a la mayoría de las personas es que Estados Unidos es bueno en innovación tecnológica, mientras que China es mejor en hacer aplicaciones.
Liang Wenfeng: Creemos que con el desarrollo económico, China también debe convertirse gradualmente en un contribuyente, en lugar de seguir aprovechándose. En las últimas tres décadas de la ola de TI, básicamente no hemos participado en la verdadera innovación tecnológica. Nos hemos acostumbrado a que la Ley de Moore caiga del cielo, acostados en casa y cada 18 meses saldrá mejor hardware y software. La Ley de Escalado también está siendo tratada así.
Pero en realidad, esto es lo que la comunidad tecnológica liderada por Occidente ha creado generación tras generación, solo porque no participamos en este proceso antes, hasta el punto de ignorar su existencia.