Llama 3.1 405B: Открытый ИИ-гигант, превосходящий GPT-4, ведет в новую эру

Meta только что выпустила последнюю версию модели Llama — Llama 3.1, в соответствии с планом.

Meta выпустила модель Llama 3.1, включающую версии размером 8B, 70B и 405B. Основные особенности:

  • Максимальная длина контекста увеличена до 128K
  • Поддержка нескольких языков
  • Отличная производительность в генерации кода
  • Обладает сложными способностями к рассуждению

По результатам тестирования:

  • Llama 3.1 405B превосходит GPT-4 0125 и конкурирует с GPT-4o и Claude 3.5
  • Llama 3.1 8B превосходит Gemma 2 9B 1T и Mistral 7B Instruct
  • Llama 3.1 70B превосходит GPT-3.5 Turbo

Детали обучения Llama 3.1 405B:

  • Обучена на более чем 15 триллионах токенов
  • Обучение на более чем 16000 GPU H100
  • Использована итеративная программа пост-обучения, сочетающая контролируемую тонкую настройку и прямую оптимизацию предпочтений
  • Улучшено количество и качество данных для предобучения и пост-обучения
  • Квантование с 16-битной точности до 8-битной для снижения требований к вычислительным ресурсам

Другие особенности:

  • Предоставляются открытые/бесплатные веса модели и код
  • Лицензия позволяет пользователям выполнять тонкую настройку, дистилляцию модели и произвольное развертывание
  • Предоставляется Llama Stack API для удобной интеграции
  • Поддержка координации нескольких компонентов, включая вызов внешних инструментов

Meta больше не запрещает использовать Llama 3 для улучшения других моделей, демонстрируя более открытый подход. Этот релиз знаменует собой первое достижение открытыми моделями производительности закрытых моделей, открывая новую эру, возглавляемую открытым исходным кодом.

Ссылка для скачивания модели

92-страничный отчет об обучении