Исследователи из Meta, UC Berkeley и NYU предложили метод метанаградных языковых моделей, направленный на достижение "сверхвыравнивания" AI-моделей. Этот метод позволяет AI-модели одновременно играть роли актера, судьи и мета-судьи, улучшая производительность через самооценку и совершенствование без необходимости в данных с человеческой разметкой.
Конкретно, метод метанаграды включает следующие шаги:
- Актер генерирует ответ на заданный запрос
- Судья оценивает и выставляет баллы за ответ
- Мета-судья оценивает качество оценки судьи
- На основе этих результатов модель оптимизируется с использованием метода DPO
Чтобы решить проблему предпочтения длины, исследователи ввели механизм контроля длины. Они также подробно разработали метод создания данных о предпочтениях судей, включая использование шаблонов подсказок для мета-судьи и учет позиционных предпочтений.
В оценочных экспериментах исследователи использовали Llama-3-8B-Instruct в качестве исходной модели, проведя начальную тонкую настройку на наборе данных EFT. Метанаградная итерация использовала 20 000 подсказок, сгенерированных Llama-2-70B-Chat, извлекая 5000 для каждой итерации, всего 4 итерации.
Результаты экспериментов показали, что метод метанаграды значительно улучшил производительность модели. Например, процент побед на AlpacaEval 2 увеличился с 22,9% до 39,4%, превзойдя GPT-4; на Arena-Hard он вырос с 20,6% до 29,1%.
Это исследование дополнительно доказывает, что языковые модели имеют потенциал для улучшения производительности через самосовершенствование, уменьшая зависимость от человеческого надзора. Оно предоставляет новые идеи и методы для достижения "сверхвыравнивания" AI-систем.