Meta ученые раскрывают процесс обучения Llama 3.1, начинается разработка Llama 4

Идеи разработки Llama 3.1

Необходимо учитывать множество факторов, включая закон масштабирования, время обучения, ограничения GPU-оборудования и т.д.
Учитывается не только собственное оборудование Meta, но и ситуация во всем AI-сообществе
Применение технологий квантования изменило соотношение затрат на вывод и обучение/тонкую настройку
В рамках существующих вычислительных мощностей и ограничений была найдена точка баланса в 405 млрд параметров
Цель - создать модель с открытым исходным кодом, сопоставимую с GPT-4

Традиционный закон масштабирования фокусируется на двух измерениях: весах модели и объеме обучения
Chinchilla подчеркнула важность общего количества токенов обучающих данных
Meta выбрала увеличение количества обучающих токенов и продолжительности, позволяя модели "переобучаться"
Это не соответствует закону Chinchilla, но позволяет получить лучшие результаты при выводе

По сравнению с Llama 2 архитектура изменилась незначительно, в основном расширились масштаб и качество данных
В будущем возможны дальнейшие улучшения архитектуры, не ограничиваясь Transformer
В настоящее время архитектуре Transformer все еще не хватает гибкости
Идет изучение архитектуры MoE

В открытом интернете существует большое количество низкокачественных текстов
Llama используется как классификатор для фильтрации высококачественных токенов
Последующее обучение Llama 3 полностью использует синтетические данные, полученные из Llama 2
Перспективы синтетических данных оцениваются положительно

Существует риск переобучения при улучшении показателей базовых тестов
Оценка языковых моделей - сложная задача
Были опробованы различные методы оценки, такие как модели вознаграждения, model-as-a-judge и др.
Многораундовый RLHF - хороший метод сравнения моделей

Meta начала обучение модели Llama 4 в июне
Акцент, вероятно, будет сделан на технологии агентов
Уже проведена некоторая работа над инструментами агентов, такими как Toolformer
Отличная инструктивная модель - основа для расширения возможностей агентов
Выпущенный Meta эталонный тест GAIA используется для оценки способности решать реальные проблемы
Различные способности агентов тесно связаны с уровнем интеллекта модели