OpenAI выпускает "завершающее исследование" по сверхвыравниванию: противостояние больших и малых моделей улучшает читаемость вывода

Соревнование моделей друг с другом

Исследование OpenAI показало, что в содержании, генерируемом большими моделями, существует некоторый компромисс между точностью и читаемостью:

Если оптимизировать модель с целью повышения собственной точности, это приведет к снижению читаемости; если целью является читаемость, то собственная точность модели будет снижаться.

Даже на простых задачах уровня начальной школы по математике легко заметить эту разницу, которую OpenAI называет "налогом на понятность".

Однако способность людей понимать содержание, генерируемое моделью, является важной предпосылкой для точных суждений и, следовательно, также влияет на безопасность.

Даже если отбросить этот аспект, понятность содержания напрямую определяет, может ли модель принести полезную помощь людям.

Это исследование было вдохновлено игрой "доказывающий-проверяющий", предложенной учеными Торонтского университета в 2021 году, и использует игровой подход для обучения моделей.

Доказывающий обладает мощными вычислительными способностями, может выполнять сложные вычисления и генерировать доказательства, его задача - убедить проверяющего в правильности некоторого утверждения.

Проверяющий может выполнять только относительно простые вычисления и должен определить достоверность доказательства, предоставленного доказывающим, через процесс взаимодействия.

Например, есть математическая задача, требующая найти выражение для функции. Доказывающий знает это выражение (но не обязательно правильное) и хочет, чтобы проверяющий поверил, что его ответ верен.

Проверяющий знает значения функции для некоторых переменных и может использовать эту информацию для проверки доказывающего, судя о его знании правильной функции по точности его ответов.

Таким образом, OpenAI стремится достичь баланса между точностью и читаемостью, обменивая относительно небольшую потерю точности на более высокую читаемость.

В этом проекте команда OpenAI использовала набор данных, содержащий задачи по математике начальной школы, решения и правильные ответы.

В качестве моделей были выбраны модели серии GPT-4 разного масштаба, где более крупные модели выступали в роли доказывающих, а меньшие - в роли проверяющих.

Набор данных был случайно разделен на две равные подгруппы для обучения доказывающих и проверяющих соответственно.

Доказывающим были присвоены две роли: полезная (helpful) и хитрая (sneaky), генерирующие соответственно правильные и неправильные решения.

Но общим для обоих было то, что им нужно было сделать свои решения высоко оцененными проверяющим.

Эти две роли не были фиксированными, доказывающие должны были ### поочередно их играть, получая награду, когда их поведение соответствовало роли.

Обучение проводилось в несколько раундов, в каждом из которых команда отбирала партию правильных и неправильных образцов из решений, сгенерированных двумя доказывающими в предыдущем раунде.

Эти образцы использовались как данные для обучения проверяющего в текущем раунде, обучая его через контролируемое обучение повышать правильность своих суждений, чтобы оценки правильных решений были выше, чем неправильных.

В этом процессе хитрый доказывающий постоянно побуждал проверяющего повышать точность своих суждений, а проверяющий заставлял доказывающего генерировать содержание, более соответствующее предпочтениям оценки, таким образом, оба прогрессировали через взаимное соревнование.

Важной предпосылкой для получения высокой оценки было то, чтобы сгенерированное содержание могло быть понято проверяющим, таким образом, просто введя человеческие предпочтения в проверяющего, можно было усилить интерпретируемость выходных данных модели.

Баланс между точностью и читаемостью

В итоге этот метод обучения через соревнование достиг хорошего баланса между высокой точностью и высокой понятностью.

Традиционные методы обучения фокусировались только на собственной точности модели, в результате чего по мере обучения точность ответов повышалась, но суждения людей становились все менее точными и более медленными.

Поскольку команда OpenAI ввела человеческие предпочтения в проверяющего, точность суждений проверяющего в определенной степени связана с человеческими.

Конечные результаты также подтвердили, что модель (доказывающий), обученная таким соревновательным способом, позволяла людям делать более быстрые и точные суждения по мере увеличения числа раундов обучения, без значительной потери собственной точности.

По сравнению с базовым методом, после 5 раундов точность человеческих суждений превысила 82%, в то время как базовый метод после 7000 шагов обучения достиг менее 75%;

По времени, человеческие суждения для базового метода занимали почти 27 секунд, а для нового метода - чуть более 26 секунд.

Кроме того, для проверяющего, по мере продолжения обучения, его устойчивость постепенно усиливалась, позволяя более точно идентифицировать неправильные ответы.

Помимо оценки эффективности этого игрового метода обучения, команда OpenAI сделала в ходе исследования некоторые другие открытия:

Влияние масштаба проверяющего: слишком маленький приводит к нестабильности обучения, слишком большой затрудняет повышение устойчивости в многораундовом обучении, оптимальный размер - от одной тысячной до одной сотой доказывающего.

Ошибки в злонамеренных решениях становились все более тонкими и локализованными по мере обучения, что указывает на то, что проверяющий побуждал хитрого доказывающего генерировать состязательные образцы, более близкие к реальным решениям.

С увеличением числа раундов обучения точность человеческих оценщиков для хитрого доказывающего несколько снизилась.

Еще кое-что

Поскольку команда суперсогласования, проводившая это исследование, уже распущена, а ответственность лежит на проблемах безопасности, стратегия безопасности OpenAI снова привлекла широкое внимание.

По этому вопросу технический директор OpenAI Мира Мурати дала эксклюзивное интервью в Университете Джонса Хопкинса в начале этого месяца.

В интервью Мира заявила, что OpenAI не "ставит продукт (приоритет) выше безопасности", как утверждал бывший руководитель команды суперсогласования Ян Лейке.

Она также сказала, что хотя команда суперсогласования распущена, работа по суперсогласованию продолжается.

OpenAI выпускает "завершающее исследование" по сверхвыравниванию: противостояние больших и малых моделей улучшает читаемость вывода

Точность немного снизилась

Соревнование моделей друг с другом

Баланс между точностью и читаемостью

Еще кое-что