Исследование показало, что использование данных, сгенерированных ИИ, для обучения моделей ИИ может привести к явлению "краха модели". Основные выводы следующие:
-
Если в обучающих данных широко используется контент, сгенерированный ИИ, в модели могут возникнуть необратимые дефекты, и маловероятные события из исходного распределения контента исчезнут.
-
Этот эффект называется "крахом модели", подобно тому, как инбридинг приводит к потомству низкого качества.
-
Исследователи обучили исходную модель на статьях из Википедии, а затем обучали несколько поколений моделей на текстах, сгенерированных предыдущим поколением.
-
Результаты показали, что с увеличением числа итераций качество выходных данных модели быстро ухудшалось:
- В 0-м поколении начали появляться фактические ошибки и странные символы
- 5-е поколение полностью превратилось в бессмыслицу
- В 9-м поколении появилось еще больше нерелевантного контента и бессвязных символов
-
Это указывает на то, что использование данных, сгенерированных ИИ, для обучения моделей приводит к деградации на протяжении нескольких поколений и в конечном итоге к краху.
-
Чтобы избежать этого, необходимо больше использовать высококачественные данные, созданные людьми, для обучения.
-
По мере того как контент, созданный ИИ, наводняет интернет, в будущем получение реальных человеческих данных станет более сложным и ценным.
В целом, это исследование предупреждает о потенциальных рисках злоупотребления данными, сгенерированными ИИ, для обучения моделей и подчеркивает важность высококачественных человеческих данных.