研究发现,使用AI生成的数据训练AI模型可能导致"模型崩溃"现象。主要结论如下:
-
如果训练数据中大量使用AI生成的内容,模型会出现不可逆转的缺陷,原始内容分布的低概率事件会消失。
-
这种效应被称为"模型崩溃",类似于近亲繁殖产生质量低劣的后代。
-
研究者使用维基百科文章训练了初始模型,然后用前一代模型生成的文本训练多代模型。
-
结果显示,随着迭代次数增加,模型输出质量迅速下降:
- 第0代开始出现事实错误和奇怪符号
- 第5代完全变成胡言乱语
- 第9代出现更多无关内容和乱码
-
这表明使用AI生成数据训练模型会导致多代退化,最终崩溃。
-
为避免这种情况,需要更多使用人类生成的高质量数据进行训练。
-
随着AI内容大量涌入互联网,未来获取真实人类数据将变得更加困难和宝贵。
总之,这项研究警示了滥用AI生成数据训练模型的潜在风险,强调了高质量人类数据的重要性。