AI時代,數據確實成為了關鍵資源。隨著人類數據逐漸枯竭,合成數據被視為未來的方向,但使用時需要謹慎。
最近一篇登上Nature封面的論文引發了討論。該研究指出,如果在訓練中只使用AI生成的內容,可能會導致模型崩潰。這引發了AI社群的廣泛討論,許多人認為問題的核心在於數據質量而非合成數據本身。
為避免模型崩潰,專家們提出了以下建議:
-
使用混合數據。Scale AI的CEO認為,純合成數據無法帶來資訊增益,應該混合使用真實世界數據、人類專家參與和形式邏輯引擎。
-
採用強化學習方法。來自Meta等機構的研究人員提出通過「排序-修剪反饋」方法來恢復和提升模型性能。
-
利用人類監督。研究表明,通過人類監督來篩選高質量數據比直接人工標註更有效且成本更低。
-
結合真實數據。在實驗中,僅依賴生成數據會導致性能下降,而結合真實數據和反饋可以提升性能。
總的來說,合成數據確實有潛力,但需要謹慎使用並與其他方法結合,才能避免模型崩潰並實現性能提升。未來的方向可能是混合數據和強化學習的結合。