現在、AI業界を席巻する「石油危機」が発生しており、ほぼすべてのAI企業が新たな言語データソースを必死に探しています。しかし、どれだけ多くのデータを集めても、AIの大規模モデルの appetite を満たすには不十分なようです。さらに、多くのコンテンツプラットフォームが自社のデータの価値に気づき始め、それを大切にし始めています。そのため、「合成データ」がAI業界全体で新たな探求の方向性となっています。
しかし、長い間、合成データが本当に使えるかどうかは不明でした。最近になって、MetaのAI研究者であるThomas Scialom博士がこの問題に答えを出しました。彼の発表によると、MetaのLlama 3オープンソース大規模モデルは、トレーニングで人間が書いた回答に依存せず、完全にLlama 2が生成した合成データに基づいているとのことです。
Thomas Scialom博士はLlama 3のトレーニングの詳細を説明する中で、大規模モデルのさまざまなシナリオにおける合成データの応用について言及しました。コード実行のフィードバック、プログラミング言語の翻訳、文書の逆翻訳、長文テキストの質疑応答、長文書の要約、コードベースの推論など、多くの分野で合成データが大量に使用されているとのことです。これは、Metaが今年の春に発表したLlama 3大規模モデルがどのように4000億以上のパラメータを持ち、Llama 2の7倍のトレーニングデータ量を実現したかを説明しています。
合成データとは一般的に、アルゴリズムを使って実世界のデータの特徴を模倣して新しいデータを生成することを指します。では、この「左足で右足を踏んで空に昇る」ような操作はどのように実現されるのでしょうか?MetaとMicrosoftの関連チームがそれぞれ発表した2つの論文が、合成データを使用して大規模モデルをトレーニングする秘密を明らかにしています。Metaは、合成データを使用してトレーニングされた大規模モデルを「自己報酬言語モデル」と呼んでいます。これは、大規模モデル自体がトレーニングデータを生成し、そのデータの品質を評価し、そのデータを使って自身をトレーニングするというものです。
自己報酬言語モデルは実際には、いわゆるAIフィードバック強化学習(RLAIF)の応用です。Metaの具体的な操作は、まず少量の人間によるアノテーションデータに基づいて初期モデルを事前トレーニングし、次に初期モデルに質問に基づいて複数の候補回答を生成させます。そして、Andrew Ng博士が提案したLLM-as-a-Judgeの方法を使用して、大規模言語モデルに自身が生成した回答を採点させ、その採点に基づいて新しいトレーニングデータを形成し、モデルのトレーニングを継続します。
このプロセスで最も重要なのは、大規模モデルが例に従って新しい指示を生成・評価し、それを自身のトレーニングセットに追加できるようにすることです。コンピュータが使用する二進法の言語は人間の言語とは異なるため、研究者は人間の言語をコンピュータが理解できる形式に変換する必要があります。これが「テキスト埋め込み」と呼ばれるものです。例えば、Microsoftの研究チームは一連のテキスト埋め込みタスクを定義し、これらのタスクに特定のプロンプトを設計することで、大規模言語モデルに特定のデータを生成するよう指示しています。
研究者が作成した特定のプロンプトには、質問と役割という2つの重要な要素が含まれ、それらを組み合わせます。例えば、ドライバーと数学の問題を組み合わせると、小中学校レベルの問題を生成でき、大規模言語モデルを適切な視点からデータを合成するよう導きます。これが自己報酬言語モデルの秘密です。その後、研究者は生成されたデータをクリーニングし、フォーマットを整え、重複内容を削除し、フォーマットエラーを修正して、トレーニングに適したものにします。
合成データの利点は、数学的および物理的な意味で実際のデータの属性を反映できることです。また、人間によるアノテーションが不要なため、データ収集プロセスや人為的な基準の不一致による人為的エラーを大幅に減らすことができます。では、合成データがトレーニングデータの不足とそれに伴う高コストの問題を解決できるのであれば、なぜ多くのAI企業は依然として人間が生成したデータの発掘や購入に傾いているのでしょうか?
最も重要な理由は、慎重に設計されたプロンプトと監督付きトレーニングを採用しても、大規模言語モデルに固有のバイアスや幻覚などの問題がデータセットにノイズを導入する可能性があることです。誤った、幻覚のある、あるいはバイアスのある合成データに基づいてトレーニングされた大規模言語モデルは、現実世界のシナリオに一般化できません。合成データに基づく大規模言語モデルは、機械学習による「汚染」を避ける必要があり、トレーニングデータにおける合成データの割合が大きいほど、自然言語理解能力の向上が難しくなります。
例えば、スタンフォード大学のPercy Liang教授は、合成データには貴重な「人間性」が欠けているため、合成データに基づいてトレーニングされた大規模モデルはAGI(汎用人工知能)に達するには不十分であると指摘しています。さらに重要なのは、合成データは人間がすでに知っている領域を検証または拡張するのに使用できますが、初期データセットに存在しない領域を明らかにすることはできません。その境界は初期データセットの境界です。
したがって、MetaがLlama 2で生成した合成データに基づいてLlama 3をトレーニングしたことは理論的には可能性がありますが、彼らはこのプロセスに実際にどれだけの人的リソースと時間がかかったかを明らかにしていません。合成データは確かに実際のデータよりも安価ですが、不適格な合成データを除去するのにどれだけのコストがかかるかはまだ不明です。
もし合成データが本当にあらゆる面で実際のデータよりも安価であれば、幻覚やAI倫理の問題があったとしても、主要なAI企業が人間が生成したデータにこだわり続ける理由はないはずです。