牛剑AIトレーニングの失敗が物議を醸す:自己訓練型AIは行き詰まりを打破できるか?

AIで生成されたデータの使用には注意が必要です。モデルのパフォーマンス低下を防ぐためです。

AIの時代において、データは確かに重要なリソースとなっています。人間のデータが徐々に枯渇する中、合成データが将来の方向性として注目されていますが、使用には慎重を期す必要があります。

最近、Natureの表紙を飾った論文が議論を呼んでいます。この研究では、AIが生成したコンテンツのみを訓練に使用すると、モデルの崩壊を引き起こす可能性があると指摘しています。これはAIコミュニティで広く議論を呼び、多くの人々がデータの質が問題の核心であり、合成データ自体ではないと考えています。

モデルの崩壊を避けるため、専門家たちは以下の提案をしています:

  1. 混合データの使用。Scale AIのCEOは、純粋な合成データは情報の増加をもたらさないと考え、実世界のデータ、人間の専門家の参加、形式論理エンジンを混合して使用すべきだと提案しています。

  2. 強化学習手法の採用。MetaなどのAI研究者たちは、「ランキング・プルーニングフィードバック」法を通じてモデルの性能を回復・向上させることを提案しています。

  3. 人間の監督の活用。研究によると、人間の監督を通じて高品質のデータをスクリーニングすることは、直接人手でラベル付けするよりも効果的でコストも低いことが示されています。

  4. 実データとの組み合わせ。実験では、生成データのみに依存すると性能が低下しますが、実データとフィードバックを組み合わせることで性能を向上させることができます。

総じて、合成データには確かに潜在力がありますが、慎重に使用し、他の方法と組み合わせることで、モデルの崩壊を避け、性能向上を実現できます。将来の方向性は、混合データと強化学習の組み合わせになる可能性があります。

論文リンク