Исследование, проведенное институтами, включая Оксфорд и Кембридж, показало, что обучение больших языковых моделей с использованием синтетических данных может привести к коллапсу модели. Это открытие было представлено на обложке журнала Nature.
Исследователи протестировали модель OPT-125m компании Meta, задавая ей вопросы о средневековой архитектуре. Хотя первые несколько раундов ответов были разумными, к девятой итерации модель начала выдавать бессмысленные результаты.
Ведущий автор статьи отметил, что они предполагали, что синтетические данные могут внести некоторые ошибки, но были удивлены тем, как быстро модель деградировала.
Три типа ошибок способствуют коллапсу модели:
- Ошибка статистической аппроксимации - из-за ограниченных размеров выборки
- Ошибка выразительности функции - из-за ограничений в возможностях аппроксимации модели
- Ошибка аппроксимации функции - вызванная ограничениями в процессе обучения
Чтобы оценить влияние на языковые модели, исследователи дообучили модель OPT-125m компании Meta на данных WikiText-2. Они сгенерировали синтетические обучающие данные из дообученной модели и использовали их для обучения последующих поколений.
Результаты показали увеличение ошибок с течением времени, при этом модели забывали маловероятные события и производили более однородные выходные данные перед полным коллапсом. Аналогичные явления наблюдались в моделях VAE и GMM.
Смягчение этой проблемы является сложной задачей. Некоторые компании изучают возможность "водяных знаков" для контента, сгенерированного ИИ, чтобы исключить его из обучающих данных, но это требует координации между компаниями.
Это предполагает, что модели, обученные на более ранних интернет-данных, могут лучше представлять реальный мир, потенциально давая преимущество первой волне больших языковых моделей.