Новый стандартный Pipeline
Данные о человеческих предпочтениях
Изначально RLHF-конвейер фокусировался на человеческих данных, включая данные для инструктивной настройки и данные о предпочтениях для выполнения задач. Такие данные дороги и строго охраняются.
Теперь единственный аспект, где используются человеческие данные - это данные о предпочтениях. Meta, вероятно, потратила 10-20 миллионов долларов или больше на данные о предпочтениях.
Для открытого сообщества проблема заключается в том, чтобы выяснить степень человеческого вмешательства в таких данных и можно ли заменить их методами LLM-as-a-Judge или моделями вознаграждения.
Расширение RLHF
Томас Сциалом, руководитель выравнивания Llama 3, утверждает, что RLHF гораздо более масштабируем, дешевле, проще в работе и обычно дает лучшую производительность.
Индустрия использует инструктивную настройку (IFT) только как отправную точку для расширения RLHF. Данные SFT в основном фокусируются на конкретных областях, которые ранее не были охвачены моделями, а затем на этой основе расширяется RLHF.
RLHF - это итеративный процесс, где генерация моделью позволяет ей продолжать улучшаться. Llama 3.1 прошла 6 раундов обучения на данных о предпочтениях, Llama 2 - 5 раундов, Nemotron - 4 раунда, до этого было несколько раундов инструктивной настройки.
Проведение нескольких итераций может быть обусловлено в основном соображениями осуществимости:
- Данные поступают в лабораторию партиями от аннотационных компаний
- Проведение нескольких небольших раундов обучения снижает риск при окончательной поставке продукта
Подобный итеративный подход RLHF можно проследить до "конституционного ИИ", предложенного Anthropic, но открытое сообщество, похоже, не воспроизвело этот результат в больших масштабах.
В настоящее время академическое сообщество фокусируется на "онлайн-обучении DPO", что схоже по направлению, но меньше внимания уделяет данным между раундами. Как только процесс будет автоматизирован, онлайн DPO станет будущим.
Выбор алгоритмов для пост-обучения не должен быть таким жестким для разных команд. DPO и PPO имеют свои преимущества и недостатки, первый легче масштабировать, но методы, вдохновленные PPO (например, онлайн RL), имеют более высокий потенциал производительности.
В настоящее время эти решения в основном обусловлены соображениями простоты, так как эти команды все еще относительно новы и строят модульные системы.
Синтетические данные
Важным элементом нового цикла RLHF являются синтетические инструктивные данные, превосходящие человеческие способности в большинстве задач.
Если можно добиться небольшого улучшения модели, генерации лучших инструкций, то "начинают заново", обновляя контрольную точку.
Meta явно заявляет в своей статье, что они "используют модель 405B для улучшения качества пост-обучения наших меньших моделей"; Google делает это путем дистилляции Gemini Flash, но на самом деле большинство передовых моделей, вероятно, включают некоторые подобные шаги.
По слухам, OpenAI использует 50 триллионов токенов данных для обучения следующего поколения моделей, большая часть которых - синтетические данные. В прошлом году ходили слухи, что Anthropic имеет "конституционный AI корпус масштаба предобучения", что теперь кажется разумным.
Эти AI-компании, вероятно, осознали важность синтетических данных 12-18 месяцев назад, когда перестали использовать выходные данные моделей для самоитеративного обучения. Но Meta отличается, так как она извлекает выгоду из других, лучших открытых моделей.
Из сегодняшнего пост-обучения видно, что проблема краха модели из-за синтетических данных была преувеличена. Крах модели происходит только в искусственно созданных средах, где отбрасываются исходные данные и остаются только сгенерированные новые данные.