Meta официально выпустила Llama 3.1, включающую модели трех размеров: 8B, 70B и 405B, с максимальной длиной контекста, увеличенной до 128k. Основные особенности включают:
-
Версия 405B является одной из крупнейших открытых моделей на сегодняшний день, превосходящей по производительности существующие ведущие модели ИИ.
-
Введено более длинное контекстное окно (до 128K токенов), способное обрабатывать более сложные задачи и диалоги.
-
Поддержка многоязычного ввода и вывода, повышающая универсальность и область применения.
-
Улучшены способности к умозаключениям, особенно в решении сложных математических задач и мгновенной генерации контента.
Meta заявляет, что эра отставания открытых языковых моделей от закрытых подходит к концу, и Llama 3.1 открывает новую эру лидерства открытого исходного кода. Версия 405B по производительности уже сопоставима с GPT-4 и Claude 3.
Что касается архитектуры модели, Llama 3.1 обучена на более чем 15 триллионах токенов с использованием более 16000 GPU H100. Для обеспечения стабильности и удобства использована стандартная архитектура Transformer только с декодером, а не архитектура MoE.
Исследовательская команда применила итеративный метод пост-обучения, улучшая функциональность модели через контролируемую тонкую настройку и прямую оптимизацию предпочтений. Также исследуется использование модели 405B в качестве "учителя" для моделей меньшего размера.
Meta также выпустила полную эталонную систему, включающую несколько примеров приложений и новых компонентов, таких как Llama Guard 3 и Prompt Guard. Предложен стандартизированный интерфейс "Llama Stack" для упрощения создания компонентов инструментария и приложений.
Согласно эталонным тестам, версия 405B сопоставима или немного превосходит закрытые модели, такие как GPT-4, в нескольких тестах. Версии 8B и 70B также значительно превосходят другие открытые модели аналогичного размера.
[Ссылка на официальный блог Meta]
[Ссылка на статью Марка Цукерберга об ИИ с открытым исходным кодом]