Meta ученые раскрывают процесс обучения Llama 3.1, начинается разработка Llama 4

Meta исследователь Томас Сиалом обсуждает модель Llama 3.1 и перспективы ее развития.

Идеи разработки Llama 3.1

Как определить масштаб параметров

  • Необходимо учитывать множество факторов, включая закон масштабирования, время обучения, ограничения GPU-оборудования и т.д.
  • Учитывается не только собственное оборудование Meta, но и ситуация во всем AI-сообществе
  • Применение технологий квантования изменило соотношение затрат на вывод и обучение/тонкую настройку
  • В рамках существующих вычислительных мощностей и ограничений была найдена точка баланса в 405 млрд параметров
  • Цель - создать модель с открытым исходным кодом, сопоставимую с GPT-4

Пересмотр закона масштабирования

  • Традиционный закон масштабирования фокусируется на двух измерениях: весах модели и объеме обучения
  • Chinchilla подчеркнула важность общего количества токенов обучающих данных
  • Meta выбрала увеличение количества обучающих токенов и продолжительности, позволяя модели "переобучаться"
  • Это не соответствует закону Chinchilla, но позволяет получить лучшие результаты при выводе

Архитектура модели

  • По сравнению с Llama 2 архитектура изменилась незначительно, в основном расширились масштаб и качество данных
  • В будущем возможны дальнейшие улучшения архитектуры, не ограничиваясь Transformer
  • В настоящее время архитектуре Transformer все еще не хватает гибкости
  • Идет изучение архитектуры MoE

О синтетических данных

  • В открытом интернете существует большое количество низкокачественных текстов
  • Llama используется как классификатор для фильтрации высококачественных токенов
  • Последующее обучение Llama 3 полностью использует синтетические данные, полученные из Llama 2
  • Перспективы синтетических данных оцениваются положительно

Оценка и улучшение LLM

  • Существует риск переобучения при улучшении показателей базовых тестов
  • Оценка языковых моделей - сложная задача
  • Были опробованы различные методы оценки, такие как модели вознаграждения, model-as-a-judge и др.
  • Многораундовый RLHF - хороший метод сравнения моделей

Llama 4 и агенты

  • Meta начала обучение модели Llama 4 в июне
  • Акцент, вероятно, будет сделан на технологии агентов
  • Уже проведена некоторая работа над инструментами агентов, такими как Toolformer
  • Отличная инструктивная модель - основа для расширения возможностей агентов
  • Выпущенный Meta эталонный тест GAIA используется для оценки способности решать реальные проблемы
  • Различные способности агентов тесно связаны с уровнем интеллекта модели

Ссылка на оригинал