Voici la traduction en français :
La fumée omniprésente dissimule en fait un fait : contrairement à de nombreuses grandes entreprises qui brûlent de l'argent en subventions, DeepSeek est rentable.
Derrière cela, DeepSeek a innové de manière globale dans l'architecture du modèle. Il a proposé une toute nouvelle architecture MLA (### un nouveau mécanisme d'attention latente multi-têtes) qui réduit l'utilisation de la mémoire à 5-13% de l'architecture MHA la plus couramment utilisée auparavant. De plus, sa structure DeepSeekMoESparse originale réduit également la charge de calcul au minimum, tout cela contribuant finalement à une réduction des coûts.
Dans la Silicon Valley, DeepSeek est appelé "la force mystérieuse venue de l'Orient". L'analyste en chef de SemiAnalysis pense que l'article DeepSeek V2 "pourrait être le meilleur de l'année". Andrew Carr, ancien employé d'OpenAI, trouve l'article "plein d'une sagesse étonnante" et a appliqué ses paramètres d'entraînement à son propre modèle. Jack Clark, ancien responsable des politiques d'OpenAI et cofondateur d'Anthropic, pense que DeepSeek "a embauché un groupe de génies insondables" et estime que les grands modèles fabriqués en Chine "deviendront une force incontournable, comme les drones et les voitures électriques".
Dans la vague d'IA largement dirigée par la Silicon Valley, c'est une situation rare. Plusieurs professionnels de l'industrie nous ont dit que ### cette forte réaction provient de l'innovation au niveau de l'architecture, une tentative rare pour les entreprises chinoises de grands modèles et même les grands modèles open source dans le monde. Un chercheur en IA a déclaré que l'architecture Attention n'a pratiquement pas été modifiée avec succès depuis des années, et encore moins validée à grande échelle. "C'est même une idée qui serait coupée lors de la prise de décision, car la plupart des gens manquent de confiance."
D'autre part, les grands modèles chinois se sont rarement aventurés dans l'innovation au niveau de l'architecture, également parce que peu de gens ont activement cherché à briser ce préjugé : ### les États-Unis sont plus doués pour l'innovation technologique de 0 à 1, tandis que la Chine est plus douée pour l'innovation applicative de 1 à 10. De plus, ce comportement n'est pas du tout rentable - une nouvelle génération de modèles sera naturellement créée dans quelques mois, les entreprises chinoises n'ont qu'à suivre et bien faire les applications. Innover dans la structure du modèle signifie qu'il n'y a pas de chemin à suivre, qu'il faut traverser de nombreux échecs, et que les coûts en temps et en argent sont énormes.
DeepSeek est clairement un rebelle. Dans un brouhaha où l'on pense que la technologie des grands modèles convergera inévitablement et que suivre est un raccourci plus intelligent, DeepSeek valorise la valeur accumulée dans les "détours" et croit que les entrepreneurs chinois de grands modèles peuvent, en plus de l'innovation applicative, rejoindre le flot d'innovation technologique mondiale.
Beaucoup des choix de DeepSeek sont différents des autres. Jusqu'à présent, parmi les 7 startups chinoises de grands modèles, c'est la seule à avoir abandonné la voie du "à la fois ceci et cela", se concentrant uniquement sur la recherche et la technologie sans faire d'applications grand public, et aussi la seule à ne pas avoir pleinement envisagé la commercialisation, choisissant fermement la voie open source et n'ayant même pas levé de fonds. Cela fait qu'elle est souvent oubliée à la table, mais d'un autre côté, elle est souvent promue spontanément par les utilisateurs dans la communauté.
Comment DeepSeek s'est-il formé ? Nous avons interviewé le fondateur de DeepSeek, Liang Wenfeng, qui apparaît rarement en public.
Ce fondateur né dans les années 80, qui se consacrait déjà à la recherche technologique en coulisses à l'époque de Huanfang, continue son style discret à l'ère DeepSeek, passant chaque jour comme tous les chercheurs à "lire des articles, écrire du code, participer à des discussions de groupe".
Contrairement à de nombreux fondateurs de fonds quantitatifs qui ont une expérience dans les hedge funds étrangers et sont souvent issus de domaines comme la physique ou les mathématiques, Liang Wenfeng a toujours eu un parcours local, ayant étudié l'intelligence artificielle au département de génie électronique de l'Université de Zhejiang dans sa jeunesse.
Plusieurs professionnels de l'industrie et chercheurs de DeepSeek nous ont dit que Liang Wenfeng est une personne très rare dans le domaine de l'IA en Chine aujourd'hui, "combinant de fortes capacités en ingénierie d'infrastructure et en recherche sur les modèles, tout en étant capable de mobiliser des ressources", "capable à la fois de faire des jugements précis d'en haut et de surpasser les chercheurs de première ligne dans les détails", possédant "une capacité d'apprentissage terrifiante" tout en étant "pas du tout comme un patron, mais plus comme un geek".
C'est une interview particulièrement rare. Dans l'interview, ce techno-idéaliste a fourni une voix particulièrement rare dans le monde technologique chinois actuel : ### il est l'un des rares à placer la "vision du bien et du mal" avant la "vision des intérêts", et à nous rappeler de voir l'inertie de l'époque et de mettre "l'innovation originale" à l'ordre du jour.
Il y a un an, lorsque DeepSeek est entré en scène, nous avons interviewé Liang Wenfeng pour la première fois : 《La folie de Huanfang : le chemin des grands modèles d'un géant invisible de l'IA》. Si à l'époque cette phrase ### "Il faut absolument embrasser l'ambition avec folie, et être follement sincère" était encore un beau slogan, un an plus tard, elle est devenue une action.
Voici la partie dialogue :
### Comment le premier coup de la guerre des prix a-t-il été tiré ?
"Courants souterrains" : Après la sortie du modèle DeepSeek V2, une guerre des prix sanglante des grands modèles s'est rapidement déclenchée. Certains disent que vous êtes le poisson-chat de l'industrie.
Liang Wenfeng : Nous n'avions pas l'intention d'être un poisson-chat, nous sommes juste devenus un poisson-chat par accident.
"Courants souterrains" : Ce résultat vous a-t-il surpris ?
Liang Wenfeng : Très surpris. Nous ne pensions pas que le prix serait si sensible pour tout le monde. Nous avons juste suivi notre propre rythme pour faire les choses, puis calculé les coûts pour fixer le prix. Notre principe est de ne pas perdre d'argent, mais aussi de ne pas faire de profits excessifs. Ce prix a aussi un peu de profit au-dessus du coût.
"Courants souterrains" : 5 jours plus tard, Zhipu AI a suivi, puis ByteDance, Alibaba, Baidu, Tencent et d'autres grandes entreprises.
Liang Wenfeng : Zhipu AI a baissé le prix d'un produit d'entrée de gamme, leur modèle de même niveau que le nôtre est toujours très cher. ByteDance a été la première à vraiment suivre. Ils ont baissé le prix de leur modèle phare au même niveau que le nôtre, ce qui a déclenché la baisse des prix des autres grandes entreprises. Comme les coûts des modèles des grandes entreprises sont beaucoup plus élevés que les nôtres, nous ne pensions pas que quelqu'un perdrait de l'argent en faisant cela, et finalement cela s'est transformé en logique de subventions brûlant de l'argent comme à l'ère d'Internet.
"Courants souterrains" : De l'extérieur, la baisse des prix ressemble beaucoup à une course aux utilisateurs, comme les guerres des prix à l'ère d'Internet.
Liang Wenfeng : Attirer les utilisateurs n'est pas notre objectif principal. Nous avons baissé les prix d'une part parce que nos coûts ont d'abord baissé en explorant la structure de la prochaine génération de modèles, et d'autre part parce que nous pensons que l'API et l'IA devraient être inclusives et abordables pour tous.
"Courants souterrains" : Avant cela, la plupart des entreprises chinoises copiaient directement la structure Llama de cette génération pour faire des applications. Pourquoi avez-vous choisi de commencer par la structure du modèle ?
Liang Wenfeng : Si l'objectif est de faire des applications, alors utiliser la structure Llama pour lancer rapidement des produits est aussi un choix raisonnable. Mais notre destination est l'AGI, ce qui signifie que nous devons étudier de nouvelles structures de modèles pour réaliser des capacités de modèle plus puissantes avec des ressources limitées. C'est l'une des recherches fondamentales nécessaires pour passer à l'échelle de modèles plus grands. En plus de la structure du modèle, nous avons fait beaucoup d'autres recherches, y compris comment construire les données, comment rendre le modèle plus humain, etc., tout cela se reflète dans les modèles que nous avons publiés. De plus, la structure de Llama est probablement déjà en retard de deux générations par rapport au niveau avancé à l'étranger en termes d'efficacité d'entraînement et de coût d'inférence.
"Courants souterrains" : D'où vient principalement cet écart de génération ?
Liang Wenfeng : Tout d'abord, il y a un écart dans l'efficacité de l'entraînement. Nous estimons que le meilleur niveau national a peut-être un écart d'un facteur deux par rapport au meilleur niveau international en termes de structure de modèle et de dynamique d'entraînement, ce qui signifie que nous devons consommer deux fois plus de puissance de calcul pour atteindre le même effet. De plus, il y a probablement aussi un écart d'un facteur deux dans l'efficacité des données, ce qui signifie que nous devons consommer deux fois plus de données d'entraînement et de puissance de calcul pour atteindre le même effet. Au total, cela signifie que nous devons consommer 4 fois plus de puissance de calcul. Ce que nous devons faire, c'est constamment réduire ces écarts.
"Courants souterrains" : La plupart des entreprises chinoises choisissent de faire à la fois des modèles et des applications, pourquoi DeepSeek a-t-elle choisi de ne faire que de la recherche et de l'exploration pour le moment ?
Liang Wenfeng : Parce que nous pensons que le plus important maintenant est de participer à la vague d'innovation mondiale. Pendant de nombreuses années, les entreprises chinoises se sont habituées à ce que d'autres fassent l'innovation technologique et que nous la prenions pour faire des applications et la monétiser, mais ce n'est pas une évidence. Dans cette vague, notre point de départ n'est pas de profiter de l'occasion pour gagner de l'argent, mais d'aller à la pointe de la technologie pour promouvoir le développement de tout l'écosystème.
"Courants souterrains" : L'inertie cognitive laissée à la plupart des gens par les ères d'Internet et de l'Internet mobile est que les États-Unis sont doués pour l'innovation technologique, tandis que la Chine est plus douée pour les applications.
Liang Wenfeng : Nous pensons qu'avec le développement économique, ### la Chine doit aussi progressivement devenir un contributeur, plutôt que de toujours profiter gratuitement. Au cours des trente dernières années de la vague informatique, nous n'avons pratiquement pas participé à la véritable innovation technologique. ### Nous nous sommes habitués à ce que la loi de Moore tombe du ciel, restant chez nous pendant 18 mois pour que de meilleurs matériels et logiciels apparaissent. La loi de Scaling est également traitée de cette manière.
Mais en fait, c'est la communauté technologique dominée par l'Occident qui l'a créée génération après génération avec assiduité. C'est juste parce que nous n'avons pas participé à ce processus auparavant que nous avons ignoré son existence.