Сенсационный релиз: Открытая модель Llama 3.1 открывает новую эру ИИ для всех

Задействовано 16000 GPU H100, обучение проведено на 150 миллиардах токенов.

01. Открытая модель с 405 млрд параметров сравнима с GPT-4o, 25 партнеров готовы к сотрудничеству

Meta оценила производительность на более чем 150 эталонных наборах данных. Llama 3.1 405B сопоставима с GPT-4o, Claude 3.5 Sonnet и Gemini Ultra в ряде задач, включая здравый смысл, практичность, математику, использование инструментов и многоязычный перевод.

В реальных сценариях Llama 3.1 405B превзошла GPT-4o и Claude 3.5 Sonnet по общей производительности при оценке человеком.

Обновленные модели Llama 3.1 8B и 70B также показывают лучшую производительность по сравнению с моделями аналогичного размера. Эти модели меньшего размера поддерживают тот же контекстный объем в 128K токенов, многоязычность, улучшенный вывод и передовое использование инструментов для более продвинутых приложений.

Meta обновила лицензию, впервые позволяя разработчикам использовать выходные данные моделей Llama, включая модель с 405 млрд параметров, для улучшения других моделей.

Экосистема открытого исходного кода Meta расширилась, и более 25 компаний уже запустили новые модели Llama 3.1.

Amazon Web Services, Databricks и NVIDIA запускают полный набор сервисов для поддержки разработчиков в тонкой настройке и обучении собственных моделей. AI-стартап Groq и другие создали сервисы с низкой задержкой и низкой стоимостью для всех новых моделей, выпущенных Meta.

Эти модели будут доступны на основных облачных платформах, включая Amazon Web Services, Microsoft Azure, Google Cloud и Oracle.

Scale AI, Dell, Deloitte и другие компании готовы помочь предприятиям внедрить модели Llama и обучить собственные модели на своих данных.

Llama 3.1 405B не только является самой мощной открытой моделью, но и может стать самой мощной моделью в целом, еще больше сократив разрыв между открытыми и закрытыми моделями.

02. Полностью оптимизированный стек обучения, ориентированный на масштабируемость модели

Чтобы обучить модель на 15 триллионах токенов и достичь желаемых результатов в разумные сроки, Meta полностью оптимизировала стек обучения.

Для решения этих проблем Meta сосредоточилась на поддержании масштабируемости и прямолинейности процесса разработки модели:

  1. Исследователи выбрали стандартную архитектуру модели Transformer только с декодером с небольшими модификациями вместо модели MoE (Mixture of Experts), чтобы максимизировать стабильность обучения.

  2. Исследователи применили итеративную процедуру пост-обучения, используя контролируемую тонкую настройку и прямую оптимизацию предпочтений на каждом этапе. Это позволило модели создавать высококачественные синтетические данные для каждого раунда и улучшать производительность по каждой способности.

По сравнению с предыдущими моделями серии Llama, Meta улучшила количество и качество данных, используемых до и после обучения. Эти улучшения включают разработку более тщательных пайплайнов предобработки и управления данными перед обучением, разработку более строгого обеспечения качества и методов фильтрации данных после обучения.

Как и ожидалось согласно законам масштабирования больших языковых моделей, новая флагманская модель Meta превосходит меньшие модели, обученные с использованием той же стратегии. Meta также использовала модель с 405 млрд параметров для повышения качества обучения своих меньших моделей.

Для поддержки крупномасштабного вывода модели с 405 млрд параметров исследователи квантовали модель с BF16 до FP8, эффективно снижая вычислительные требования и позволяя модели работать в пределах одного серверного узла.

В отношении тонкой настройки инструкций и чата исследователи провели несколько раундов выравнивания поверх предобученной модели для создания финальной модели. Каждый раунд включал контролируемую тонкую настройку (SFT), отбор образцов (RS) и прямую оптимизацию предпочтений (DPO), используя генерацию синтетических данных для создания большинства примеров SFT для генерации более качественных синтетических данных по всем функциям.

Кроме того, Meta применила различные методы обработки данных для фильтрации этих синтетических данных до наивысшего качества, что позволило новой модели масштабировать объем данных тонкой настройки по всем функциям.

В отношении данных исследователи также тщательно сбалансировали данные для создания высококачественной модели со всеми функциями. Например, они обеспечили качество модели на эталонных тестах с коротким контекстом, позволяя ей масштабироваться до контекстной длины в 128K.

Meta также объявила о запуске комплексной системы Llama. Эта система, помимо моделей Llama, включает координацию нескольких компонентов и вызовы внешних инструментов, помогая разработчикам создавать более мощные пользовательские продукты, чем базовая модель.

Система Llama будет включать ряд новых компонентов, в том числе новые инструменты безопасности с открытым исходным кодом, такие как Llama Guard 3 (многоязычная модель безопасности) и Prompt Guard (фильтр инъекций промптов). Чтобы связать разрозненные компоненты, Meta также выпустила запрос на комментарии к Llama Stack API - стандартному интерфейсу, облегчающему сторонним проектам использование моделей Llama.

Для обычных разработчиков использование модели масштаба 405 млрд параметров все еще остается сложной задачей, требующей значительных вычислительных ресурсов и экспертных знаний.

На основе системы Llama разработка генеративного ИИ - это не просто подсказки модели. Каждый должен иметь возможность использовать модель с 405 млрд параметров для выполнения большего количества задач, включая вывод в реальном времени и пакетный вывод, контролируемую тонкую настройку, оценку модели для конкретных приложений, непрерывное предварительное обучение, генерацию с расширенным поиском (RAG), вызовы функций, генерацию синтетических данных и т.д.

Это самая большая модель, выпущенная Meta на сегодняшний день. В будущем будут выпущены более дружественные к устройствам размеры, больше модальностей и обновления на уровне агентов.

03. Модель с 405 млрд параметров радикально меняет Meta AI, обновление умного голосового помощника Quest

Теперь несколько конечных продуктов Meta, таких как WhatsApp и чат-бот Meta AI, начали использовать Llama 3.1 405B.

Meta AI в настоящее время поддерживает семь новых языков. Meta выпустила новый набор творческих инструментов Meta AI, в основном сосредоточенных на визуальной генерации, математике и кодировании.

Начнем с визуальной генерации. Meta AI представила функцию генерации изображений "Imagine Me", которая позволяет пользователям вводить "imagine me" в чате Meta AI с дополнительными подсказками, например, "imagine me as a member of royalty" или "imagine me in a surrealist painting", чтобы генерировать изображения и делиться ими с друзьями и семьей.