Клубы дыма на самом деле скрывают один факт: в отличие от многих крупных компаний, которые тратят деньги на субсидии, DeepSeek является прибыльной.
За этим стоят всесторонние инновации DeepSeek в архитектуре модели. Предложенная ими новая архитектура MLA (### новый механизм многоголового латентного внимания) снизила использование видеопамяти до 5-13% от наиболее часто используемой ранее архитектуры MHA. В то же время их оригинальная структура DeepSeekMoESparse также свела вычислительную нагрузку к минимуму. Все это в конечном итоге привело к снижению затрат.
В Кремниевой долине DeepSeek называют "таинственной силой с Востока". Главный аналитик SemiAnalysis считает, что статья о DeepSeek V2 "может быть лучшей в этом году". Бывший сотрудник OpenAI Эндрю Карр считает статью "полной удивительной мудрости" и применил ее настройки обучения к своей собственной модели. Бывший руководитель политики OpenAI и соучредитель Anthropic Джек Кларк считает, что DeepSeek "нанял группу непостижимых гениев" и что китайские крупные модели "станут силой, которую нельзя игнорировать, как беспилотники и электромобили".
В волне ИИ, где развитие в основном определяется Кремниевой долиной, это редкая ситуация. Многие представители отрасли сообщили нам, что ### такая сильная реакция вызвана инновациями на уровне архитектуры, что является очень редкой попыткой для китайских компаний, разрабатывающих крупные модели, и даже для глобальных открытых базовых крупных моделей. Один исследователь ИИ отметил, что за многие годы с момента появления архитектуры Attention ее почти не удавалось успешно изменить, не говоря уже о крупномасштабной проверке. "Это даже мысль, которая была бы пресечена при принятии решений, потому что большинству людей не хватает уверенности".
С другой стороны, китайские крупные модели редко затрагивали инновации на уровне архитектуры, также потому, что мало кто активно пытался разрушить такое предубеждение: ### США лучше справляются с технологическими инновациями от 0 до 1, а Китай лучше справляется с прикладными инновациями от 1 до 10. Тем более, что такое поведение крайне невыгодно - новое поколение моделей естественным образом появится через несколько месяцев, китайским компаниям нужно только следовать и хорошо применять их. Инновации в структуре модели означают отсутствие пути для следования, необходимость пройти через множество неудач, что требует огромных временных и экономических затрат.
DeepSeek явно идет против течения. Среди шума о том, что технологии крупных моделей неизбежно сходятся и что следование - более умный короткий путь, DeepSeek ценит накопленную ценность в "обходных путях" и считает, что китайские предприниматели в области крупных моделей, помимо прикладных инноваций, также могут присоединиться к глобальному потоку технологических инноваций.
Многие решения DeepSeek отличаются от других. На данный момент из 7 китайских стартапов в области крупных моделей это единственная компания, которая отказалась от пути "и то, и другое", до сих пор сосредоточена на исследованиях и технологиях, не делая приложений для потребителей, и единственная компания, которая не рассматривала полностью коммерциализацию, твердо выбрав путь открытого исходного кода и даже не привлекая инвестиций. Это часто оставляет ее за пределами игрового стола, но с другой стороны, она часто распространяется пользователями в сообществе в стиле "самореклама".
Как же DeepSeek удалось достичь этого? Для этого мы взяли интервью у редко появляющегося на публике основателя DeepSeek Лян Вэньфэна.
Этот основатель 80-х годов, который с эпохи Phantoscope усердно занимался исследованиями технологий за кулисами, в эпоху DeepSeek по-прежнему продолжает свой скромный стиль, и, как все исследователи, каждый день "читает статьи, пишет код, участвует в групповых обсуждениях".
В отличие от многих основателей количественных фондов, имеющих опыт работы в зарубежных хедж-фондах и часто выходцев из физики, математики и других специальностей, Лян Вэньфэн всегда имел местное происхождение и в ранние годы учился на факультете электронной инженерии Чжэцзянского университета по направлению искусственного интеллекта.
Многие представители отрасли и исследователи DeepSeek сообщили нам, что Лян Вэньфэн - очень редкий в нынешнем китайском мире ИИ человек, который "обладает как сильными инфраструктурными инженерными способностями, так и способностями к исследованию моделей, а также может мобилизовать ресурсы", "может делать точные суждения с высоты и превосходить исследователей первой линии в деталях", обладает "ужасающей способностью к обучению" и в то же время "совсем не похож на босса, а больше похож на гика".
Это было особенно редкое интервью. В интервью этот технологический идеалист предоставил голос, который в настоящее время особенно редок в китайском технологическом мире: ### он один из немногих, кто ставит "взгляд на правильное и неправильное" выше "взгляда на выгоду и вред" и напоминает нам о том, чтобы увидеть инерцию времени и поставить "оригинальные инновации" на повестку дня.
Год назад, когда DeepSeek только вышла на сцену, мы впервые взяли интервью у Лян Вэньфэна: 《Безумный Phantoscope: путь гигантской модели невидимого гиганта ИИ》. Если тогда фраза ### "нужно безумно амбициозно и при этом безумно искренне" была всего лишь красивым лозунгом, то год спустя она уже стала действием.
Ниже приводится часть диалога:
### Как был сделан первый выстрел в ценовой войне?
"Скрытое течение": После выпуска модели DeepSeek V2 быстро разразилась кровавая ценовая война крупных моделей, некоторые говорят, что вы стали сомом в отрасли.
Лян Вэньфэн: Мы не намеревались стать сомом, просто случайно им стали.
"Скрытое течение": Этот результат удивил вас?
Лян Вэньфэн: Очень удивил. Не ожидали, что цена будет так чувствительна для всех. Мы просто действовали в своем темпе, а затем рассчитали затраты и установили цену. Наш принцип - не терять деньги, но и не получать огромную прибыль. Эта цена также немного выше себестоимости с небольшой прибылью.
"Скрытое течение": Через 5 дней Zhipu AI последовала за вами, затем ByteDance, Alibaba, Baidu, Tencent и другие крупные компании.
Лян Вэньфэн: Zhipu AI снизила цену на начальный продукт, их модель того же уровня, что и наша, все еще очень дорогая. ByteDance была первой, кто действительно последовал за нами. Они снизили цену на флагманскую модель до нашего уровня, что затем вызвало снижение цен у других крупных компаний. Поскольку затраты на модели у крупных компаний намного выше наших, мы не ожидали, что кто-то будет терять деньги на этом, в итоге это превратилось в логику субсидий эпохи интернета.
"Скрытое течение": Со стороны кажется, что снижение цен похоже на борьбу за пользователей, обычно так происходят ценовые войны в эпоху интернета.
Лян Вэньфэн: Борьба за пользователей не является нашей главной целью. Мы снизили цены, с одной стороны, потому что в процессе исследования структуры модели следующего поколения наши затраты сначала снизились, с другой стороны, мы также считаем, что и API, и ИИ должны быть общедоступными и доступными для всех.
"Скрытое течение": До этого большинство китайских компаний просто копировали структуру Llama этого поколения для создания приложений, почему вы решили начать с структуры модели?
Лян Вэньфэн: Если цель - создание приложений, то использование структуры Llama для быстрого выпуска продукта - разумный выбор. Но наша цель - AGI, что означает, что нам нужно исследовать новые структуры моделей, чтобы достичь более сильных возможностей модели с ограниченными ресурсами. Это одно из фундаментальных исследований, необходимых для масштабирования до более крупных моделей. Помимо структуры модели, мы также провели множество других исследований, включая то, как конструировать данные, как сделать модель более похожей на человека и т.д., все это отражено в выпущенных нами моделях. Кроме того, структура Llama, вероятно, уже отстает на два поколения от передового уровня за рубежом в плане эффективности обучения и стоимости вывода.
"Скрытое течение": Откуда в основном берется эта разница в поколениях?
Лян Вэньфэн: Во-первых, есть разрыв в эффективности обучения. Мы оцениваем, что лучший уровень в Китае по сравнению с лучшим за рубежом может иметь двукратную разницу в структуре модели и динамике обучения, только из-за этого нам нужно потреблять в два раза больше вычислительной мощности, чтобы достичь того же эффекта. Кроме того, эффективность данных также может иметь двукратную разницу, то есть нам нужно потреблять в два раза больше обучающих данных и вычислительной мощности, чтобы достичь того же эффекта. В сумме это означает потребление в 4 раза больше вычислительной мощности. То, что мы делаем, - это постоянно пытаемся сократить эти разрывы.
"Скрытое течение": Большинство китайских компаний выбирают и модели, и приложения, почему DeepSeek в настоящее время выбирает только исследования и разведку?
Лян Вэньфэн: Потому что мы считаем, что сейчас самое важное - участвовать в глобальной волне инноваций. Многие годы китайские компании привыкли к тому, что другие делают технологические инновации, а мы берем их и монетизируем приложения, но это не должно быть само собой разумеющимся. В этой волне наша отправная точка - не заработать на этом, а выйти на передний край технологий, чтобы продвигать развитие всей экосистемы.
"Скрытое течение": Инерционное восприятие, оставшееся у большинства людей от эпохи интернета и мобильного интернета, заключается в том, что США лучше справляются с технологическими инновациями, а Китай лучше справляется с приложениями.
Лян Вэньфэн: Мы считаем, что с развитием экономики ### Китай также должен постепенно становиться вкладчиком, а не просто пользоваться чужими достижениями. За последние тридцать с лишним лет ИТ-волны мы практически не участвовали в реальных технологических инновациях. ### Мы уже привыкли к тому, что закон Мура падает с неба, и каждые 18 месяцев, лежа дома, мы получаем лучшее оборудование и программное обеспечение. Scaling Law также так воспринимается.
Но на самом деле это создавалось поколение за поколением западным технологическим сообществом, и только потому, что мы раньше не участвовали в этом процессе, мы игнорировали его существ