Идеи разработки Llama 3.1
Как определить масштаб параметров
- Необходимо учитывать множество факторов, включая закон масштабирования, время обучения, ограничения GPU-оборудования и т.д.
- Учитывается не только собственное оборудование Meta, но и ситуация во всем AI-сообществе
- Применение технологий квантования изменило соотношение затрат на вывод и обучение/тонкую настройку
- В рамках существующих вычислительных мощностей и ограничений была найдена точка баланса в 405 млрд параметров
- Цель - создать модель с открытым исходным кодом, сопоставимую с GPT-4
Пересмотр закона масштабирования
- Традиционный закон масштабирования фокусируется на двух измерениях: весах модели и объеме обучения
- Chinchilla подчеркнула важность общего количества токенов обучающих данных
- Meta выбрала увеличение количества обучающих токенов и продолжительности, позволяя модели "переобучаться"
- Это не соответствует закону Chinchilla, но позволяет получить лучшие результаты при выводе
Архитектура модели
- По сравнению с Llama 2 архитектура изменилась незначительно, в основном расширились масштаб и качество данных
- В будущем возможны дальнейшие улучшения архитектуры, не ограничиваясь Transformer
- В настоящее время архитектуре Transformer все еще не хватает гибкости
- Идет изучение архитектуры MoE
О синтетических данных
- В открытом интернете существует большое количество низкокачественных текстов
- Llama используется как классификатор для фильтрации высококачественных токенов
- Последующее обучение Llama 3 полностью использует синтетические данные, полученные из Llama 2
- Перспективы синтетических данных оцениваются положительно
Оценка и улучшение LLM
- Существует риск переобучения при улучшении показателей базовых тестов
- Оценка языковых моделей - сложная задача
- Были опробованы различные методы оценки, такие как модели вознаграждения, model-as-a-judge и др.
- Многораундовый RLHF - хороший метод сравнения моделей
Llama 4 и агенты
- Meta начала обучение модели Llama 4 в июне
- Акцент, вероятно, будет сделан на технологии агентов
- Уже проведена некоторая работа над инструментами агентов, такими как Toolformer
- Отличная инструктивная модель - основа для расширения возможностей агентов
- Выпущенный Meta эталонный тест GAIA используется для оценки способности решать реальные проблемы
- Различные способности агентов тесно связаны с уровнем интеллекта модели