Когда насилие больше не творит чудес, большие модели попадают в технологическое проклятие
Абсолютно большие параметры, возможно, не являются единственным решением для внедрения больших моделей. Это утверждение постепенно становится консенсусом в индустрии больших моделей.
Первым узким местом на пути увеличения параметров является крупнейший победитель в этом пиршестве - NVIDIA.
Недавно исследовательский отчет Meta показал: их новейшая модель Llama 3 с 405 миллиардами параметров при обучении на кластере из 16384 GPU NVIDIA H100 за 54 дня испытала 419 неожиданных сбоев, в среднем каждые три часа во время обучения происходил сбой. При этом каждый отдельный сбой GPU прерывал весь процесс обучения, приводя к перезапуску обучения.
Проще говоря, текущее количество параметров больших моделей уже приближается к пределу возможностей оборудования. Даже бесконечное количество GPU больше не может решить проблему вычислительной мощности в обучении больших моделей. Если продолжать безудержно увеличивать параметры, процесс обучения превратится в бесконечное повторение, подобное Сизифу, катящему камень.
Оборудование увеличило сложность расширения больших моделей, а в конкретных сценариях уровень интеллекта больше не пропорционален количеству параметров, что с практической точки зрения ставит большой вопрос к этому насильственному удовольствию.
Сценарии использования больших моделей становятся все более сложными, специализированными и фрагментированными. Ожидать, что одна модель сможет как отвечать на общие вопросы, так и решать проблемы в профессиональных областях, почти утопично.
Один из любимых технических параметров сравнения отечественных производителей больших моделей - это сравнение с GPT-4 в анализе стихов и шутках с форумов. Почти без исключения, независимо от размера модели, открытости исходного кода или нет, отечественные большие модели превосходят "мирового лидера". Даже в базовых вопросах литературной эрудиции, таких как отношения между Лу Синем и Чжоу Шужэнем, лучшие большие модели уступают самой традиционной поисковой системе.
Возвращаясь к практическому применению, невозможный треугольник коммерциализации окончательно охладил энтузиазм сторонников увеличения параметров.
В реальных приложениях, помимо уровня интеллекта модели, менеджерам по продуктам необходимо учитывать еще два важных фактора: скорость и стоимость. Обычно необходимыми условиями для выживания большой модели являются время отклика менее 1 секунды в вопросах и ответах, 99% точность и бизнес-модель, позволяющая покрыть расходы.
Однако использование подхода с большими параметрами для повышения интеллекта часто означает, что чем выше уровень интеллекта, тем медленнее скорость ответа продукта и выше стоимость, и наоборот.
Если позволить параметрам бесконтрольно расширяться, ИИ неизбежно превратится в войну капитала, но стоимость расширения далеко превзойдет любую аналогичную стадию коммерческого соревнования в истории... Для игроков, уже нажавших на газ, единственный способ не проиграть слишком сильно - это повысить ставки до уровня, который конкуренты не смогут поддерживать.
Таким образом, перед лицом приближающегося потолка, отрасль начинает задаваться вопросом: если универсальная модель не существует, и насилие не творит чудес, куда должна двигаться отрасль?
Момент T-образной модели для больших моделей: CoE или MoE?
Когда возможность одной большой модели одновременно выполнять общие и специализированные задачи была заблокирована, совместная работа нескольких моделей стала основной темой второго этапа развития отрасли.
В 1913 году компания Ford творчески применила идею линии разделки мяса в автомобильной промышленности, разработав первую в мире сборочную линию. С тех пор производство автомобилей перешло от ручной сборки мастерами к промышленному процессу, время производства одного автомобиля сократилось почти в 60 раз, а цена продажи снизилась более чем вдвое. Производство автомобилей вступило в новую эру.
Такой же момент T-образной модели происходит и в индустрии больших моделей.
Если взять самый типичный сценарий перевода, хороший перевод должен достигать трех уровней: верность, выразительность и элегантность. Но в мире больших моделей традиционные модели перевода могут достичь только верности, а выразительность и элегантность могут быть достигнуты только с помощью моделей написания текстов.
Однако относительно того, как осуществлять разделение труда между несколькими моделями, отрасль разделилась на два четко выраженных лагеря: сторонников вертикальной и горизонтальной интеграции.
Технический подход сторонников вертикальной интеграции - это MoE.
MoE (Mixture-of-Experts) в переводе на русский означает "смесь экспертов", это комбинация нескольких экспертных моделей из разных областей в одну супермодель. Еще в 2022 году Google представила большую модель MoE Switch Transformer, которая с 1571 миллиардами параметров показала более высокую эффективность выборки в задачах предварительного обучения (более точная и без значительного увеличения вычислительных затрат), чем модель T5-XXL (11 миллиардов параметров).
Более того, известный американский хакер Джордж Хотц и создатель PyTorch Сумит Чинтала также заявили, что GPT-4 состоит из 8 моделей MoE с 220 миллиардами параметров каждая, образуя большую модель с 1760 миллиардами параметров, что не является строго "одной" триллионной моделью.
Однако этот подход "8 в 1" также приводит к тому, что разработка и каждое обновление MoE требуют огромных ресурсов. Это похоже на ежедневное восхождение на гору: сложность восхождения на Эверест высотой 8848 м намного превышает сумму усилий, необходимых для восхождения 8 раз на гору Яньдан высотой 1108 м. Поэтому участвовать в этом могут только ведущие компании в области ИИ, обладающие абсолютным преимуществом во всех восьми аспектах.
Таким образом, по мере того как MoE постепенно становится игрой для олигополий, на передний план выходит новый технический подход - CoE сторонников горизонтальной интеграции.
CoE (Collaboration-of-Experts) означает модель сотрудничества экспертов. Проще говоря, один вход одновременно подключается к нескольким моделям, а перед анализом моделей добавляется этап распознавания намерений, а затем происходит распределение задач, определяющее, какая модель будет действовать или какие модели будут работать вместе. По сравнению с MoE, главное преимущество CoE заключается в том, что различные экспертные модели могут работать вместе, но между ними нет жесткой связи.
По сравнению с MoE, в CoE между отдельными экспертными моделями больше сотрудничества, более точное разделение труда, и они более гибкие и специализированные. Этот подход, по сравнению с MoE, обладает более высокой эффективностью и более низкими затратами на использование API-интерфейсов и токенов.
Итак, какой подход будет иметь преимущество: MoE или CoE?
Другой подход к решению проблемы: что определяет интеллектуальный опыт пользователя?
Когда Чжоу Хунъи в своем красном одеянии превратился в гуру ИИ, внутри компании 360 в течение последнего года неоднократно проводились дискуссии о том, какой путь выбрать: CoE или MoE.
Если идти по пути MoE, многолетнего технологического накопления 360 достаточно для завершения этой битвы.
А выбор CoE означает разделение пирога с большим количеством производителей больших моделей.
"Три сапожника стоят одного Чжугэ Ляна" вдохновило вице-президента группы 360 Лян Чжихуэя сделать ставку на CoE:
Даже если компания достигнет уровня "восьми олимпийских дисциплин" как OpenAI, у нее все равно будут слабые места. Но если объединить возможности лучших компаний в области больших моделей через возможности CoE, это означает взаимодополняемость преимуществ и реализацию настоящих восемнадцати олимпийских дисциплин.
Результаты тестирования показывают, что бета-версия AI-ассистента, основанная на возможностях 360 CoE AI, после интеграции лучших возможностей 16 сильнейших отечественных больших моделей, включая 360 Smart Brain, уже превзошла GPT-4 по 11 отдельным показателям тестирования способностей.
В то же время, даже "отдавая на аутсорсинг" базовые возможности больших моделей, 360 все еще может найти свое уникальное позиционирование в волне CoE.
С точки зрения продукта, AI-ассистент 360 CoE можно разделить на две части: накопление корпуса и алгоритмические технологии в основном опираются на подключение 16 отечественных больших моделей, включая 360 Smart Brain, подобно спецназовцам с разными специализациями; а 360 играет роль командира, используя модель распознавания намерений для более точного понимания намерений пользователя; с помощью моделей декомпозиции и планирования задач реализуется интеллектуальное управление многочисленной сетью экспертных моделей (100+ LLM), центром знаний объемом в сотни миллиардов и более 200 сторонних инструментов, что обеспечивает большую гибкость и эффективность по сравнению с MoE.