Предполагаемая утечка Llama 3.1: Появилась модель с открытым исходным кодом, превосходящая GPT-4 с 405 миллиардами параметров

Преимущества проприетарных технологий ослабевают. С развитием и распространением технологий с открытым исходным кодом закрытые системы, которые когда-то считались конкурентным барьером, сталкиваются с вызовами. Модель открытого сотрудничества меняет ландшафт индустрии программного обеспечения, делая все более трудным поддержание стратегии защитного рва, основанной на закрытых технологиях. Компаниям необходимо переосмыслить, как сохранить конкурентоспособность в открытой среде.

Сообщается, что произошла утечка Llama 3.1, включая результаты тестирования моделей с 8B, 70B и 405B параметров. Даже версия 70B превосходит GPT-4o по нескольким показателям, что является первым случаем, когда модель с открытым исходным кодом превзошла модели с закрытым исходным кодом, такие как GPT-4o и Claude Sonnet 3.5, по нескольким показателям.

Ключевые детали из утекшей карточки модели:

  • Обучена на более чем 15T токенов общедоступных данных до декабря 2023 года
  • Данные для тонкой настройки включают общедоступные наборы инструкций и 15 миллионов синтетических образцов
  • Поддерживает английский, французский, немецкий, хинди, итальянский, португальский, испанский и тайский языки

Сообщается, что модели имеют контекстную длину 128k и используют групповое внимание запросов для улучшения масштабируемости вывода.

Предполагаемые применения включают многоязычные коммерческие приложения и исследования. Модели, настроенные на инструкции, оптимизированы для чат-ассистентов, в то время как предварительно обученные модели могут быть адаптированы для различных задач генерации естественного языка.

Инфраструктура обучения:

  • Пользовательская библиотека обучения и GPU-кластеры Meta
  • 39,3 млн GPU-часов на оборудовании H100-80GB
  • Оценочные выбросы CO2e 11 390 тонн (0 тонн на рыночной основе из-за использования возобновляемой энергии)

Приводятся оценки по различным задачам, где модели Llama 3.1 превосходят многие чат-модели с открытым и закрытым исходным кодом.

Соображения безопасности:

  • Многосторонний подход к сбору данных, сочетающий данные, созданные человеком, и синтетические данные
  • Классификаторы на основе LLM для контроля качества
  • Акцент на снижении отказов модели и тона отказа
  • Состязательные подсказки включены в данные по безопасности
  • Предназначено для развертывания в составе более крупной системы ИИ с дополнительными мерами защиты

Разработчики должны внедрять системные меры безопасности при создании агентских систем, особенно при использовании новых функций, таких как более длинные контекстные окна, многоязычные возможности и интеграция сторонних инструментов.

[Ссылки на упомянутые статьи и источники опущены]