Meta выпустила модель Llama 3.1, включающую версии размером 8B, 70B и 405B. Основные особенности:
- Максимальная длина контекста увеличена до 128K
- Поддержка нескольких языков
- Отличная производительность в генерации кода
- Обладает сложными способностями к рассуждению
По результатам тестирования:
- Llama 3.1 405B превосходит GPT-4 0125 и конкурирует с GPT-4o и Claude 3.5
- Llama 3.1 8B превосходит Gemma 2 9B 1T и Mistral 7B Instruct
- Llama 3.1 70B превосходит GPT-3.5 Turbo
Детали обучения Llama 3.1 405B:
- Обучена на более чем 15 триллионах токенов
- Обучение на более чем 16000 GPU H100
- Использована итеративная программа пост-обучения, сочетающая контролируемую тонкую настройку и прямую оптимизацию предпочтений
- Улучшено количество и качество данных для предобучения и пост-обучения
- Квантование с 16-битной точности до 8-битной для снижения требований к вычислительным ресурсам
Другие особенности:
- Предоставляются открытые/бесплатные веса модели и код
- Лицензия позволяет пользователям выполнять тонкую настройку, дистилляцию модели и произвольное развертывание
- Предоставляется Llama Stack API для удобной интеграции
- Поддержка координации нескольких компонентов, включая вызов внешних инструментов
Meta больше не запрещает использовать Llama 3 для улучшения других моделей, демонстрируя более открытый подход. Этот релиз знаменует собой первое достижение открытыми моделями производительности закрытых моделей, открывая новую эру, возглавляемую открытым исходным кодом.