Meta заставляет LLM развиваться путем самооценки: после 4 раундов обучения Llama 7B превосходит GPT-4

AI в роли судьи: исследование применения и потенциала искусственного интеллекта в роли арбитра Искусственный интеллект (ИИ) быстро развивается и находит применение во многих областях. Одна из интересных и потенциально революционных областей - использование ИИ в качестве судьи или арбитра в различных контекстах. Давайте рассмотрим некоторые возможности и проблемы, связанные с этой концепцией. Потенциальные преимущества: 1. Объективность: ИИ может принимать решения на основе чистых данных и правил, без эмоциональных предубеждений. 2. Скорость: ИИ может обрабатывать информацию и принимать решения намного быстрее, чем люди. 3. Последовательность: ИИ может обеспечить единообразное применение правил во всех случаях. 4. Доступность: ИИ-судьи могут работать круглосуточно, повышая эффективность систем правосудия. Проблемы и ограничения: 1. Этические соображения: Могут ли машины действительно понять нюансы человеческого поведения и морали? 2. Технические ограничения: ИИ все еще может совершать ошибки или неправильно интерпретировать сложные ситуации. 3. Отсутствие человеческого фактора: Некоторые ситуации могут требовать эмпатии и понимания, которые ИИ может не обеспечить. 4. Проблемы с данными: Предвзятость в обучающих данных может привести к несправедливым решениям. Потенциальные области применения: 1. Спортивное судейство 2. Разрешение онлайн-споров 3. Трафик и мелкие правонарушения 4. Предварительный скрининг юридических дел Заключение: Хотя ИИ в роли судьи предлагает захватывающие возможности, важно тщательно рассмотреть этические и практические последствия. Вероятно, наилучший подход будет заключаться в сочетании возможностей ИИ с человеческим надзором и принятием окончательных решений.

Исследователи из Meta, UC Berkeley и NYU предложили метод метанаградных языковых моделей, направленный на достижение "сверхвыравнивания" AI-моделей. Этот метод позволяет AI-модели одновременно играть роли актера, судьи и мета-судьи, улучшая производительность через самооценку и совершенствование без необходимости в данных с человеческой разметкой.

Конкретно, метод метанаграды включает следующие шаги:

  1. Актер генерирует ответ на заданный запрос
  2. Судья оценивает и выставляет баллы за ответ
  3. Мета-судья оценивает качество оценки судьи
  4. На основе этих результатов модель оптимизируется с использованием метода DPO

Чтобы решить проблему предпочтения длины, исследователи ввели механизм контроля длины. Они также подробно разработали метод создания данных о предпочтениях судей, включая использование шаблонов подсказок для мета-судьи и учет позиционных предпочтений.

В оценочных экспериментах исследователи использовали Llama-3-8B-Instruct в качестве исходной модели, проведя начальную тонкую настройку на наборе данных EFT. Метанаградная итерация использовала 20 000 подсказок, сгенерированных Llama-2-70B-Chat, извлекая 5000 для каждой итерации, всего 4 итерации.

Результаты экспериментов показали, что метод метанаграды значительно улучшил производительность модели. Например, процент побед на AlpacaEval 2 увеличился с 22,9% до 39,4%, превзойдя GPT-4; на Arena-Hard он вырос с 20,6% до 29,1%.

Это исследование дополнительно доказывает, что языковые модели имеют потенциал для улучшения производительности через самосовершенствование, уменьшая зависимость от человеческого надзора. Оно предоставляет новые идеи и методы для достижения "сверхвыравнивания" AI-систем.

Ссылка на статью 1 Ссылка на статью 2