AI системы рухнули 9 раз из-за злонамеренных атак: исследование Оксбриджа и других попало на обложку Nature

Сгенерированные синтетические данные могут иметь ограничения, подобные недостатку генетического разнообразия, вызванному инбридингом.

Исследование показало, что использование данных, сгенерированных ИИ, для обучения моделей ИИ может привести к явлению "краха модели". Основные выводы следующие:

  1. Если в обучающих данных широко используется контент, сгенерированный ИИ, в модели могут возникнуть необратимые дефекты, и маловероятные события из исходного распределения контента исчезнут.

  2. Этот эффект называется "крахом модели", подобно тому, как инбридинг приводит к потомству низкого качества.

  3. Исследователи обучили исходную модель на статьях из Википедии, а затем обучали несколько поколений моделей на текстах, сгенерированных предыдущим поколением.

  4. Результаты показали, что с увеличением числа итераций качество выходных данных модели быстро ухудшалось:

    • В 0-м поколении начали появляться фактические ошибки и странные символы
    • 5-е поколение полностью превратилось в бессмыслицу
    • В 9-м поколении появилось еще больше нерелевантного контента и бессвязных символов
  5. Это указывает на то, что использование данных, сгенерированных ИИ, для обучения моделей приводит к деградации на протяжении нескольких поколений и в конечном итоге к краху.

  6. Чтобы избежать этого, необходимо больше использовать высококачественные данные, созданные людьми, для обучения.

  7. По мере того как контент, созданный ИИ, наводняет интернет, в будущем получение реальных человеческих данных станет более сложным и ценным.

В целом, это исследование предупреждает о потенциальных рисках злоупотребления данными, сгенерированными ИИ, для обучения моделей и подчеркивает важность высококачественных человеческих данных.