研究發現,使用AI生成的數據訓練AI模型可能導致「模型崩潰」現象。主要結論如下:
-
如果訓練數據中大量使用AI生成的內容,模型會出現不可逆轉的缺陷,原始內容分佈的低概率事件會消失。
-
這種效應被稱為「模型崩潰」,類似於近親繁殖產生質量低劣的後代。
-
研究者使用維基百科文章訓練了初始模型,然後用前一代模型生成的文本訓練多代模型。
-
結果顯示,隨著迭代次數增加,模型輸出質量迅速下降:
- 第0代開始出現事實錯誤和奇怪符號
- 第5代完全變成胡言亂語
- 第9代出現更多無關內容和亂碼
-
這表明使用AI生成數據訓練模型會導致多代退化,最終崩潰。
-
為避免這種情況,需要更多使用人類生成的高質量數據進行訓練。
-
隨著AI內容大量湧入互聯網,未來獲取真實人類數據將變得更加困難和寶貴。
總之,這項研究警示了濫用AI生成數據訓練模型的潛在風險,強調了高質量人類數據的重要性。