AI系統遭惡意攻擊崩潰9次：牛劍等研究登Nature封面

生成的合成數據可能存在局限性，類似近親繁殖導致的遺傳多樣性不足。

研究發現，使用AI生成的數據訓練AI模型可能導致「模型崩潰」現象。主要結論如下：

如果訓練數據中大量使用AI生成的內容，模型會出現不可逆轉的缺陷，原始內容分佈的低概率事件會消失。
這種效應被稱為「模型崩潰」，類似於近親繁殖產生質量低劣的後代。
研究者使用維基百科文章訓練了初始模型，然後用前一代模型生成的文本訓練多代模型。
結果顯示，隨著迭代次數增加，模型輸出質量迅速下降：
- 第0代開始出現事實錯誤和奇怪符號
- 第5代完全變成胡言亂語
- 第9代出現更多無關內容和亂碼
這表明使用AI生成數據訓練模型會導致多代退化，最終崩潰。
為避免這種情況，需要更多使用人類生成的高質量數據進行訓練。
隨著AI內容大量湧入互聯網，未來獲取真實人類數據將變得更加困難和寶貴。

總之，這項研究警示了濫用AI生成數據訓練模型的潛在風險，強調了高質量人類數據的重要性。