Llama 3.1: открытая модель превосходит закрытые аналоги, изменит ли это ландшафт ИИ?

Основатель Meta Марк Цукерберг твердо обязался полностью продвигать стратегию открытого исходного кода.

Meta официально выпустила Llama 3.1, включающую модели трех размеров: 8B, 70B и 405B, с максимальной длиной контекста, увеличенной до 128k. Основные особенности включают:

  1. Версия 405B является одной из крупнейших открытых моделей на сегодняшний день, превосходящей по производительности существующие ведущие модели ИИ.

  2. Введено более длинное контекстное окно (до 128K токенов), способное обрабатывать более сложные задачи и диалоги.

  3. Поддержка многоязычного ввода и вывода, повышающая универсальность и область применения.

  4. Улучшены способности к умозаключениям, особенно в решении сложных математических задач и мгновенной генерации контента.

Meta заявляет, что эра отставания открытых языковых моделей от закрытых подходит к концу, и Llama 3.1 открывает новую эру лидерства открытого исходного кода. Версия 405B по производительности уже сопоставима с GPT-4 и Claude 3.

Что касается архитектуры модели, Llama 3.1 обучена на более чем 15 триллионах токенов с использованием более 16000 GPU H100. Для обеспечения стабильности и удобства использована стандартная архитектура Transformer только с декодером, а не архитектура MoE.

Исследовательская команда применила итеративный метод пост-обучения, улучшая функциональность модели через контролируемую тонкую настройку и прямую оптимизацию предпочтений. Также исследуется использование модели 405B в качестве "учителя" для моделей меньшего размера.

Meta также выпустила полную эталонную систему, включающую несколько примеров приложений и новых компонентов, таких как Llama Guard 3 и Prompt Guard. Предложен стандартизированный интерфейс "Llama Stack" для упрощения создания компонентов инструментария и приложений.

Согласно эталонным тестам, версия 405B сопоставима или немного превосходит закрытые модели, такие как GPT-4, в нескольких тестах. Версии 8B и 70B также значительно превосходят другие открытые модели аналогичного размера.

[Ссылка на официальный блог Meta]

[Ссылка на статью Марка Цукерберга об ИИ с открытым исходным кодом]