Сфера больших моделей: какова истинная ситуация с открытым исходным кодом?

Обсуждая открытые языковые модели большого масштаба, мы фокусируемся на системах искусственного интеллекта, которые можно свободно получать, использовать и модифицировать. Эти модели обучаются на огромных объемах текстовых данных и способны понимать и генерировать человеческий язык, обеспечивая основу для различных приложений. Мы рассматриваем их технические характеристики, тенденции развития, потенциал применения и влияние на область искусственного интеллекта.

Разработка программного обеспечения с открытым исходным кодом обычно следует принципам взаимного сотрудничества и коллегиального производства, способствуя улучшению производственных модулей, каналов связи и интерактивных сообществ. Типичными представителями являются Linux и Mozilla Firefox.

Программное обеспечение с закрытым исходным кодом (проприетарное программное обеспечение) по коммерческим или другим причинам не раскрывает исходный код, а предоставляет только программу, читаемую компьютером (например, в двоичном формате). Исходный код контролируется и управляется только разработчиками. Типичными представителями являются Windows и Android.

Открытый исходный код - это модель разработки программного обеспечения, основанная на открытости, совместном использовании и сотрудничестве, которая поощряет всех участвовать в разработке и улучшении программного обеспечения, способствуя постоянному техническому прогрессу и широкому применению.

Программное обеспечение, разработанное с закрытым исходным кодом, с большей вероятностью станет стабильным, целенаправленным продуктом, но обычно требует оплаты, и если в нем есть какие-либо ошибки или отсутствуют функции, можно только ждать, пока разработчик решит проблему.

Что касается того, что такое модель с открытым исходным кодом, в отрасли нет четкого консенсуса, как в случае с программным обеспечением с открытым исходным кодом.

Открытый исходный код для больших языковых моделей и программного обеспечения схож по концепции, оба основаны на открытости, совместном использовании и сотрудничестве, поощряя сообщество участвовать в разработке и улучшении, способствуя техническому прогрессу и повышению прозрачности.

Однако существуют значительные различия в реализации и требованиях.

Открытый исходный код программного обеспечения в основном ориентирован на приложения и инструменты, требования к ресурсам для открытого исходного кода относительно низкие, в то время как открытый исходный код больших языковых моделей включает большое количество вычислительных ресурсов и высококачественных данных, и может иметь больше ограничений на использование. Таким образом, хотя оба направлены на содействие инновациям и распространению технологий, открытый исходный код больших языковых моделей сталкивается с большей сложностью, и формы вклада сообщества также различаются.

Ли Яньхун также подчеркнул различия между ними, открытый исходный код модели не равен открытому исходному коду программы: "Открытый исходный код модели может предоставить только набор параметров, все еще требуется SFT (контролируемая тонкая настройка) и безопасное выравнивание, даже если получен соответствующий исходный код, неизвестно, какая доля и какие данные использовались для обучения этих параметров, невозможно достичь эффекта 'много рук делают работу легкой', получив эти вещи, нельзя стоять на плечах гигантов для итеративной разработки."

Полный открытый исходный код больших языковых моделей включает в себя открытость и прозрачность всего процесса разработки модели, от сбора данных, проектирования модели, обучения до развертывания. Этот подход включает не только публикацию наборов данных и открытие архитектуры модели, но и совместное использование кода процесса обучения и публикацию весов предварительно обученной модели.

За последний год количество больших языковых моделей значительно увеличилось, многие из которых заявляют о себе как об открытом исходном коде, но насколько они действительно открыты?

Андреас Лизенфельд, исследователь искусственного интеллекта из Университета Радбауда в Нидерландах, и Марк Дингеманс, специалист по вычислительной лингвистике, также обнаружили, что хотя термин "открытый исходный код" широко используется, многие модели в лучшем случае являются "открытыми весами", скрывая большинство других аспектов построения системы.

Например, технологические гиганты, такие как Meta и Microsoft, хотя и называют свои большие языковые модели "открытым исходным кодом", не раскрывают важную информацию, связанную с базовыми технологиями. К их удивлению, AI-компании и учреждения с меньшими ресурсами показали более похвальные результаты.

Исследовательская группа проанализировала ряд популярных проектов "открытого исходного кода" больших языковых моделей, оценивая их фактическую степень открытости по нескольким аспектам, от кода, данных, весов, API до документации. Исследование также использовало ChatGPT от OpenAI в качестве закрытого эталона, подчеркивая реальное состояние проектов "открытого исходного кода".

✔ - открыто, ~ - частично открыто, X - закрыто

Результаты показывают значительные различия между проектами. Согласно этому рейтингу, OLMo от Allen Institute for AI является наиболее открытой моделью с открытым исходным кодом, за ней следует BloomZ от BigScience, обе разработаны некоммерческими организациями.

В статье утверждается, что Llama от Meta и Gemma от Google DeepMind, хотя и называют себя открытым исходным кодом или открытыми, на самом деле только открывают веса, внешние исследователи могут получить доступ и использовать предварительно обученные модели, но не могут проверить или настроить модели, а также не знают, как модели тонко настраиваются для конкретных задач.

Недавний выпуск LLaMA 3 и Mistral Large 2 привлек широкое внимание. С точки зрения открытости модели, LLaMA 3 опубликовала веса модели, пользователи могут получить доступ и использовать эти предварительно обученные и тонко настроенные веса модели, кроме того, Meta также предоставила некоторый базовый код для предварительного обучения и тонкой настройки модели, но не предоставила полный код обучения, данные обучения LLaMA 3 также не были опубликованы. Однако на этот раз Meta представила 93-страничный технический отчет о LLaMA 3.1 405B.

Ситуация с Mistral Large 2 аналогична, она сохраняет высокую степень открытости в отношении весов модели и API, но имеет низкую степень открытости в отношении полного кода и данных обучения, принимая стратегию баланса между коммерческими интересами и открытостью, разрешая исследовательское использование, но с ограничениями на коммерческое использование.

Google заявляет, что компания "очень точна в языке" при описании модели, они называют Gemma открытой, а не открытым исходным кодом. "Существующие концепции открытого исходного кода не всегда напрямую применимы к системам ИИ", - говорят они.

Важным контекстом для этого исследования является Закон об искусственном интеллекте Европейского Союза, который при вступлении в силу будет применять более мягкое регулирование к моделям, классифицированным как открытые, поэтому определение открытого исходного кода может стать еще более важным.

Исследователи утверждают, что единственный путь к инновациям - это настройка модели, для чего необходимо достаточно информации, чтобы построить свою собственную версию. Более того, модели должны быть подвергнуты проверке, например, если модель была обучена на большом количестве тестовых образцов, прохождение определенного теста может не считаться достижением.

Они также рады появлению такого количества альтернатив с открытым исходным кодом, ChatGPT настолько популярен, что легко забыть, что мы ничего не знаем о его обучающих данных или других закулисных методах. Это проблема для тех, кто хочет лучше понять модель или создать на ее основе приложения, а альтернативы с открытым исходным кодом делают возможными ключевые фундаментальные исследования.

Силиконовые люди также провели статистику ситуации с открытым исходным кодом некоторых отечественных больших языковых моделей:

Из таблицы мы можем видеть, что, как и в зарубежной ситуации, модели с наиболее тщательным открытым исходным кодом в основном возглавляются исследовательскими институтами, это в основном потому, что цель исследовательских институтов - продвигать научные исследования и развитие отрасли, они более склонны открывать свои исследовательские результаты.

Коммерческие компании, с другой стороны, используют свои ресурсные преимущества для разработки более мощных моделей и получают преимущество в конкуренции через соответствующие стратегии открытого исходного кода.

От GPT-3 до BERT, открытый исходный код принес важный импульс экосистеме больших моделей.

Публикуя свою архитектуру и методы обучения, исследователи и разработчики могут проводить дальнейшие исследования и улучшения на этой основе, порождая больше передовых технологий и приложений.

Появление больших моделей с открытым исходным кодом значительно снизило порог разработки, разработчики и малые и средние предприятия могут использовать эти передовые технологии ИИ, не начиная с нуля, тем самым экономя большое количество времени и ресурсов. Это позволило быстро реализовать больше инновационных проектов и продуктов, способствуя развитию всей отрасли. Разработчики активно делятся методами оптимизации и примерами применения на платформах с открытым исходным кодом, что также способствует зрелости технологий и их применению.

Для образования и научных исследований большие языковые модели с открытым исходным кодом предоставляют ценные ресурсы. Студенты и начинающие разработчики могут быстро овладеть передовыми технологиями ИИ, изучая и используя эти модели, сокращая кривую обучения и вливая свежую кровь в отрасль.

Однако открытость больших языковых моделей не является простым бинарным свойством. Архитектура системы на основе Transformer и процесс ее обучения чрезвычайно сложны и их трудно просто классифицировать как открытые или закрытые. Открытый исходный код больших моделей - это не просто ярлык, а скорее спектр, от полностью открытого до частично открытого, с различными степенями.

Открытый исходный код больших языковых моделей - это сложная и тонкая работа, и не все модели должны быть с открытым исходным кодом.

Не следует требовать полного открытого исходного кода методом "морального шантажа", поскольку это включает в себя множество технических, ресурсных и соображений безопасности, требующих баланса между открытостью и безопасностью, инновациями и ответственностью. Как и в других аспектах технологической сферы, только разнообразные способы вклада могут создать более богатую технологическую экосистему.

Отношения между моделями с открытым и закрытым исходным кодом, возможно, можно сравнить с сосуществованием программного обеспечения с открытым и закрытым исходным кодом в индустрии программного обеспечения.

Модели с открытым исходным кодом способствуют широкому распространению и инновациям в технологиях, в то время как модели с закрытым исходным кодом предоставляют более профессиональные и безопасные решения в определенных областях. Они дополняют друг друга, совместно продвигая развитие технологий искусственного интеллекта.

В будущем мы, вероятно, увидим появление большего количества гибридных моделей, таких как частично открытый исходный код или условно открытый исходный код, для балансирования между обменом технологиями и коммерческими интересами.

Независимо от того, открытый исходный код или закрытый, важно обеспечить безопасность, надежность и этичность модели. Это требует совместных усилий отрасли, академических кругов и регулирующих органов для разработки соответствующих стандартов и норм для обеспечения здорового развития технологий ИИ.

В целом, большие языковые модели с открытым и закрытым исходным кодом имеют свои преимущества и ограничения. Модели с открытым исходным кодом способствуют широкому распространению и инновациям в технологиях, в то время как модели с закрытым исходным кодом предоставляют более профессиональные и безопасные решения в определенных областях. Сосуществование и конкуренция между ними будут двигать всю индустрию ИИ вперед, предоставляя пользователям больше выбора и лучший опыт.

В будущем мы, веро