AI系统遭恶意攻击崩溃9次:牛津剑桥等研究登Nature封面

生成的合成数据可能存在局限性,类似近亲繁殖导致的遗传多样性不足。

研究发现,使用AI生成的数据训练AI模型可能导致"模型崩溃"现象。主要结论如下:

  1. 如果训练数据中大量使用AI生成的内容,模型会出现不可逆转的缺陷,原始内容分布的低概率事件会消失。

  2. 这种效应被称为"模型崩溃",类似于近亲繁殖产生质量低劣的后代。

  3. 研究者使用维基百科文章训练了初始模型,然后用前一代模型生成的文本训练多代模型。

  4. 结果显示,随着迭代次数增加,模型输出质量迅速下降:

    • 第0代开始出现事实错误和奇怪符号
    • 第5代完全变成胡言乱语
    • 第9代出现更多无关内容和乱码
  5. 这表明使用AI生成数据训练模型会导致多代退化,最终崩溃。

  6. 为避免这种情况,需要更多使用人类生成的高质量数据进行训练。

  7. 随着AI内容大量涌入互联网,未来获取真实人类数据将变得更加困难和宝贵。

总之,这项研究警示了滥用AI生成数据训练模型的潜在风险,强调了高质量人类数据的重要性。