Предполагаемая утечка Llama 3.1: Появилась модель с открытым исходным кодом, превосходящая GPT-4 с 405 миллиардами параметров

Сообщается, что произошла утечка Llama 3.1, включая результаты тестирования моделей с 8B, 70B и 405B параметров. Даже версия 70B превосходит GPT-4o по нескольким показателям, что является первым случаем, когда модель с открытым исходным кодом превзошла модели с закрытым исходным кодом, такие как GPT-4o и Claude Sonnet 3.5, по нескольким показателям.

Ключевые детали из утекшей карточки модели:

Обучена на более чем 15T токенов общедоступных данных до декабря 2023 года
Данные для тонкой настройки включают общедоступные наборы инструкций и 15 миллионов синтетических образцов
Поддерживает английский, французский, немецкий, хинди, итальянский, португальский, испанский и тайский языки

Сообщается, что модели имеют контекстную длину 128k и используют групповое внимание запросов для улучшения масштабируемости вывода.

Предполагаемые применения включают многоязычные коммерческие приложения и исследования. Модели, настроенные на инструкции, оптимизированы для чат-ассистентов, в то время как предварительно обученные модели могут быть адаптированы для различных задач генерации естественного языка.

Инфраструктура обучения:

Пользовательская библиотека обучения и GPU-кластеры Meta
39,3 млн GPU-часов на оборудовании H100-80GB
Оценочные выбросы CO2e 11 390 тонн (0 тонн на рыночной основе из-за использования возобновляемой энергии)

Приводятся оценки по различным задачам, где модели Llama 3.1 превосходят многие чат-модели с открытым и закрытым исходным кодом.

Соображения безопасности:

Многосторонний подход к сбору данных, сочетающий данные, созданные человеком, и синтетические данные
Классификаторы на основе LLM для контроля качества
Акцент на снижении отказов модели и тона отказа
Состязательные подсказки включены в данные по безопасности
Предназначено для развертывания в составе более крупной системы ИИ с дополнительными мерами защиты

Разработчики должны внедрять системные меры безопасности при создании агентских систем, особенно при использовании новых функций, таких как более длинные контекстные окна, многоязычные возможности и интеграция сторонних инструментов.

[Ссылки на упомянутые статьи и источники опущены]