Не в том дело, что большие модели недоступны, а в том, что малые модели более выгодны
В обширном мире ИИ малые модели всегда имели свою легенду.
Если посмотреть вовне, то выпущенная в прошлом году Mistral 7B сразу же была признана "лучшей 7B моделью", превзойдя 13B-параметровую модель Llama 2 по многим оценочным критериям, а также превзойдя Llama 34B в выводах, математике и генерации кода.
В этом году Microsoft также выпустила с открытым исходным кодом самую мощную малопараметровую большую модель phi-3-mini, которая, несмотря на всего 3,8B параметров, по результатам оценки производительности значительно превосходит модели аналогичного масштаба и конкурирует с более крупными моделями, такими как GPT-3.5 и Claude-3 Sonnet.
Если посмотреть внутрь, то в начале февраля Mianbi Intelligence выпустила языковую модель для устройств MiniCPM с всего 2B параметров, достигающую более высокой производительности при меньшем размере, превосходящую популярную французскую большую модель Mistral-7B и названную "маленькой пушкой".
Недавно MiniCPM-Llama3-V2.5 с всего 8B параметров превзошла более крупные модели, такие как GPT-4V и Gemini Pro, по многомодальной комплексной производительности, возможностям OCR и другим аспектам, из-за чего подверглась плагиату со стороны команды ИИ Стэнфордского университета.
До прошлой недели, когда OpenAI взорвала ночную сцену, выпустив GPT-4o mini, описанную ими как "самую функциональную и экономически эффективную малопараметровую модель", что вновь привлекло внимание всех к малым моделям.
С тех пор как OpenAI втянула весь мир в воображение генеративного ИИ, развитие как внутри страны, так и за рубежом всегда следовало одной логике - оставаться в игре путем коммерциализации.
Поэтому среди множества мнений наиболее заметным является то, что снижающая цены OpenAI, похоже, тоже собирается вступить в ценовую войну.
Возможно, у многих нет четкого представления о ценах на GPT-4o mini. Цена GPT-4o mini составляет 15 центов за 100 миллионов входных токенов и 60 центов за 100 миллионов выходных токенов, что более чем на 60% дешевле, чем GPT-3.5 Turbo.
Другими словами, генерация книги в 2500 страниц с помощью GPT-4o mini будет стоить всего 60 центов.
Генеральный директор OpenAI Сэм Альтман также не мог не отметить в X, что по сравнению с GPT-4o mini самая мощная модель два года назад не только значительно уступала по производительности, но и стоила в 100 раз дороже в использовании.
В то время как ценовая война больших моделей становится все более ожесточенной, некоторые эффективные и экономичные малые модели с открытым исходным кодом также легче привлекают внимание рынка, ведь дело не в том, что большие модели недоступны, а в том, что малые модели более выгодны.
С одной стороны, в условиях глобальной скупки и даже дефицита GPU, открытые малые модели с низкими затратами на обучение и развертывание также могут постепенно получить преимущество.
Например, MiniCPM, выпущенная Mianbi Intelligence, благодаря своим небольшим параметрам может достичь резкого снижения затрат на вывод и даже реализовать вывод на CPU, требуя только одну машину для непрерывного обучения параметров и одну видеокарту для тонкой настройки параметров, при этом оставляя пространство для постоянного улучшения затрат.
Если вы опытный разработчик, вы даже можете обучить вертикальную модель для юридической области, создав свою собственную малую модель, стоимость вывода которой может составлять всего одну тысячную от стоимости тонкой настройки большой модели.
Применение некоторых "малых моделей" на стороне устройства позволило многим производителям увидеть проблеск надежды на получение прибыли в первую очередь. Например, Mianbi Intelligence помогла Шэньчжэньскому промежуточному народному суду запустить систему помощи в судебных разбирательствах с искусственным интеллектом, доказав рынку ценность технологии.
Конечно, точнее говоря, изменение, которое мы начнем наблюдать, - это не переход от больших моделей к малым, а переход от моделей одной категории к комбинации моделей, где выбор подходящей модели зависит от конкретных потребностей организации, сложности задачи и доступных ресурсов.
С другой стороны, малые модели легче развертывать и интегрировать в мобильные устройства, встраиваемые системы или среды с низким энергопотреблением.
Малые модели имеют относительно небольшое количество параметров и, по сравнению с большими моделями, требуют меньше вычислительных ресурсов (таких как вычислительная мощность ИИ, память и т.д.), что позволяет им работать более плавно на устройствах с ограниченными ресурсами. Кроме того, устройства на стороне клиента обычно имеют более строгие требования к энергопотреблению, нагреву и другим проблемам, и специально разработанные малые модели могут лучше адаптироваться к ограничениям устройств на стороне клиента.
Генеральный директор Honor Чжао Мин сказал, что из-за проблем с вычислительной мощностью ИИ на стороне устройства параметры могут быть в диапазоне от 1B до 10B, в то время как возможности облачных вычислений сетевых больших моделей могут достигать 10-100 миллиардов или даже больше, и это разница между ними.
Телефон находится в очень ограниченном пространстве, верно? Он поддерживает 7 миллиардов в условиях ограниченной батареи, ограниченного теплоотвода и ограниченного хранилища, представьте себе, сколько ограничений, это определенно самое сложное.
Мы также раскрыли закулисных героев, ответственных за работу Apple Intelligence, среди которых 3B малая модель, тонко настроенная для задач обобщения, полировки и т.д., которая с помощью адаптера превосходит Gemma-7B и подходит для работы на мобильных терминалах.
Поэтому мы видим, что бывший гений OpenAI Андрей Карпати недавно высказал предположение, что конкуренция в размерах моделей будет "обратной инволюцией", не становясь все больше и больше, а соревнуясь в том, кто меньше и гибче.
Как малые модели побеждают большие
Предсказание Андрея Карпати не беспочвенно.
В эту эпоху, ориентированную на данные, модели быстро становятся все более крупными и сложными, и сверхбольшие модели (такие как GPT-4), обученные на огромных объемах данных, в основном используются для запоминания большого количества несущественных деталей, то есть для зубрежки материала.
Однако тонко настроенные модели даже "побеждают большие, будучи маленькими" в конкретных задачах, и их удобство использования сопоставимо со многими "сверхбольшими моделями".
Генеральный директор Hugging Face Клем Делангю также предположил, что до 99% случаев использования можно решить с помощью малых моделей, и предсказал, что 2024 год станет годом малых языковых моделей.
Прежде чем разобраться в причинах, нам нужно объяснить некоторые знания.
В 2020 году OpenAI в статье предложила известный закон: Scaling law, который гласит, что с увеличением размера модели ее производительность также увеличивается. С появлением таких моделей, как GPT-4, преимущества Scaling law постепенно стали очевидными.
Исследователи и инженеры в области ИИ верят, что увеличение количества параметров модели может еще больше повысить способность модели к обучению и обобщению. Таким образом, мы стали свидетелями того, как масштаб моделей вырос с десятков миллиардов параметров до сотен миллиардов и даже триллионов параметров.
В мире ИИ размер модели не является единственным критерием измерения ее интеллекта.
Напротив, тщательно разработанная малая модель, с оптимизированными алгоритмами, улучшенным качеством данных и использованием передовых методов сжатия, часто может демонстрировать производительность, сопоставимую или даже превосходящую большие модели в конкретных задачах.
Эта стратегия победы малого над большим становится новой тенденцией в области ИИ. Одним из способов, которым малые модели побеждают большие, является повышение качества данных.
Сатиш Джаянти, технический директор и соучредитель Coalesce, так описал влияние данных на модели:
Если бы LLM существовали в 17 веке, и мы спросили бы ChatGPT, круглая Земля или плоская, он ответил бы, что Земля плоская, потому что данные, которые мы ему предоставили, заставили бы его поверить, что это факт. Данные, которые мы предоставляем LLM, и способ их обучения напрямую влияют на их вывод.
Чтобы производить высококачественные результаты, большие языковые модели нуждаются в обучении на высококачественных, целенаправленных данных по конкретным темам и областям. Как студентам нужны качественные учебники для обучения, так и LLM нуждаются в качественных источниках данных.