AI时代,数据确实成为了关键资源。随着人类数据逐渐枯竭,合成数据被视为未来的方向,但使用时需要谨慎。
最近一篇登上Nature封面的论文引发了讨论。该研究指出,如果在训练中只使用AI生成的内容,可能会导致模型崩溃。这引发了AI社区的广泛讨论,许多人认为问题的核心在于数据质量而非合成数据本身。
为避免模型崩溃,专家们提出了以下建议:
-
使用混合数据。Scale AI的CEO认为,纯合成数据无法带来信息增益,应该混合使用真实世界数据、人类专家参与和形式逻辑引擎。
-
采用强化学习方法。来自Meta等机构的研究人员提出通过"排序-修剪反馈"方法来恢复和提升模型性能。
-
利用人类监督。研究表明,通过人类监督来筛选高质量数据比直接人工标注更有效且成本更低。
-
结合真实数据。在实验中,仅依赖生成数据会导致性能下降,而结合真实数据和反馈可以提升性能。
总的来说,合成数据确实有潜力,但需要谨慎使用并与其他方法结合,才能避免模型崩溃并实现性能提升。未来的方向可能是混合数据和强化学习的结合。