"Делать больше и сильнее", а также яростно конкурировать в "делать меньше и лучше".
Превзойти GPT-4 уже не единственный KPI, крупные модели вступили в ключевой период борьбы за рынок. Чтобы привлечь пользователей, недостаточно просто демонстрировать технологические возможности, нужно также доказывать, что ваша модель более экономически эффективна - ### меньше модель при той же производительности, выше производительность и экономичность при том же количестве параметров.
На самом деле, эта тенденция к "уменьшению крупных моделей" начала формироваться еще во второй половине прошлого года.
Изменили правила игры две компании. Одна - французский AI-стартап Mistral AI, который в сентябре прошлого года поразил всех, победив Llama 2 с 13 миллиардами параметров с помощью модели с 7 миллиардами параметров, и мгновенно стал известным в сообществе разработчиков. Другая - китайский AI-стартап Mianbi Intelligence, который в феврале этого года выпустил еще более компактную модель MiniCPM для устройств, достигнув производительности выше, чем у Llama 2 13B, используя всего 2,4 миллиарда параметров.
Оба стартапа пользуются хорошей репутацией в сообществе разработчиков, и несколько их моделей возглавили рейтинги популярности открытого исходного кода. Особенно Mianbi Intelligence, вышедшая из лаборатории обработки естественного языка Университета Цинхуа, вызвала большой резонанс в этом году, когда команда из ведущего американского университета "обернула" их мультимодальную модель. Оригинальная работа Mianbi получила признание в академических кругах как в Китае, так и за рубежом, что позволило отечественным моделям AI с открытым исходным кодом поднять голову.
Apple также начала исследовать модели для устройств, которые лучше подходят для смартфонов, с прошлого года. OpenAI, которая всегда шла по пути грубого силового расширения, оказалась относительно неожиданным новым участником. На прошлой неделе они выпустили облегченную модель GPT-4 mini, что означает, что лидер крупных моделей активно "спускается с небес" и начинает следовать отраслевым тенденциям, пытаясь использовать более дешевые и доступные модели для охвата более широкого рынка.
2024 год станет ключевым годом для "миниатюризации" крупных моделей!
I. "Закон Мура" эпохи крупных моделей: только эффективность может быть устойчивой
В настоящее время разработка крупных моделей попала в инерцию: ### большая сила творит чудеса.
В 2020 году статья OpenAI подтвердила сильную корреляцию между производительностью модели и ее масштабом. Просто поглощая больше качественных данных и обучая модели большего объема, можно было добиться более высокой производительности.
Следуя этому простому, но эффективному пути, в последние два года во всем мире развернулась стремительная гонка за созданием все более крупных моделей. Это заложило основу для алгоритмической гегемонии, когда только команды с достаточным финансированием и вычислительными мощностями имеют капитал для долгосрочного участия в соревновании.
В прошлом году генеральный директор OpenAI Сэм Альтман раскрыл, что стоимость обучения GPT-4 составила не менее ### 100 миллионов долларов. В ситуации, когда высокоприбыльная бизнес-модель еще не найдена, даже крупные технологические компании с глубокими карманами с трудом могут позволить себе долгосрочные инвестиции без учета затрат. Экосистема тем более не может терпеть такую игру с бесконечным сжиганием денег.
Разрыв в производительности между ведущими крупными языковыми моделями заметно сокращается. Хотя GPT-4 прочно удерживает первое место, разница в баллах базовых тестов с Claude 3 Opus и Gemini 1.5 Pro не является непреодолимой. По некоторым способностям модели с десятками миллиардов параметров могут даже показывать лучшие результаты. Размер модели уже не является единственным определяющим фактором, влияющим на производительность.
Дело не в том, что топовые крупные модели недостаточно привлекательны, просто легкие модели имеют лучшее соотношение цены и качества.
На графике ниже, которым AI-инженер Карина Нгуен поделилась в конце марта этого года в социальных сетях, четко показана взаимосвязь между производительностью крупных языковых моделей по базовому показателю MMLU и их стоимостью с 2022 года: с течением времени языковые модели достигают более высоких баллов точности MMLU, а соответствующие затраты значительно снижаются. Новые модели достигают точности около 80%, при этом затраты могут быть на несколько порядков ниже, чем несколько лет назад.
Мир меняется очень быстро, и за эти несколько месяцев появилось много новых экономически эффективных легких моделей.
"Конкуренция в размерах крупных языковых моделей обостряется - в обратном направлении!" - делает ставку гуру AI-технологий Андрей Карпати: "Мы увидим некоторые очень-очень маленькие модели, которые будут "думать" очень хорошо и надежно".
Способности модели ÷ количество параметров модели, участвующих в вычислениях = плотность знаний, это измерение можно использовать для представления сильного интеллекта, которым может обладать модель с таким же количеством параметров. Крупная модель GPT-3, выпущенная в июне 2020 года, имела 175 миллиардов параметров. В феврале этого года модель MiniCPM-2.4B от Mianbi Intelligence, достигшая такой же производительности, уже сократила количество параметров до 2,4 миллиарда, что эквивалентно увеличению плотности знаний примерно в ### 86 раз.
Основываясь на этих тенденциях, Лю Чжиюань, доцент факультета компьютерных наук Университета Цинхуа и главный научный сотрудник Mianbi Intelligence, недавно выдвинул интересную идею: ### у эпохи крупных моделей есть свой "закон Мура".
Конкретно, ### по мере совместного развития данных, вычислительных мощностей и алгоритмов, плотность знаний крупных моделей постоянно увеличивается, в среднем удваиваясь каждые 8 месяцев.
Подобно тому, как увеличение плотности схем на чипах привело к эволюции вычислительных устройств с одинаковой вычислительной мощностью от суперкомпьютеров, занимавших несколько комнат, до смартфонов, помещающихся в кармане, развитие крупных моделей будет следовать аналогичному правилу. Лю Чжиюань назвал предложенный им руководящий принцип "законом Mianbi".
Если эта тенденция продолжится, ### для обучения модели со 100 миллиардами параметров, способности, которыми она обладает, через 8 месяцев сможет реализовать модель с 50 миллиардами параметров, а еще через 8 месяцев это можно будет сделать всего с 25 миллиардами параметров.
II. Разделение на несколько направлений: закрытые ценовые войны в самом разгаре, открытый исход стоит на трех ногах в США, Европе и Китае
В настоящее время игроки, вступившие в гонку по облегчению крупных моделей, разделились на несколько направлений.
OpenAI, Google и Anthropic пошли по пути закрытого исходного кода. Их флагманские модели GPT-4, Claude 3.5 Sonnet и Gemini 1.5 Pro контролируют самый высокий уровень производительности, причем количество параметров этих моделей достигает сотен миллиардов и даже триллионов.
Легкие модели являются упрощенными версиями их флагманских моделей. После выпуска новинки OpenAI на прошлой неделе GPT-4 mini стала наиболее экономически эффективным вариантом среди моделей с менее чем 10 миллиардами параметров, превзойдя по производительности Gemini Flash и Claude Haiku. Для потребителей она заменила GPT-3.5 для бесплатного использования, а для бизнеса резко снизила цены на API, сделав порог внедрения технологии крупных моделей еще ниже.
Андрий Бурков, автор книги "Инженерия машинного обучения", на основе цен предположил, что количество параметров GPT-4 mini составляет около 7 миллиардов. Ли Дахай, генеральный директор Mianbi Intelligence, предполагает, что GPT-4 mini является "широкой MoE" моделью с большим количеством экспертов, а не моделью для устройств, позиционируясь как высокоэффективная облачная модель для значительного снижения затрат на внедрение крупных моделей в промышленность.