AIデータ論争：シリコンバレーの大物たちが企業の情報「借用」を支持する理由

2028年までにインターネット上の高品質なテキストデータがすべて使い果たされ、AI企業がデータ不足に陥っているという主張は、最近のAI業界の注目トピックです。より多くのデータとより多くの計算能力を獲得することは、現在のAI企業にとって最も頭を悩ませる問題となっています。これに関して、元Google CEOのエリック・シュミットは8月14日にスタンフォード大学で行った講演で驚くべき発言をしました。彼はAIスタートアップがまずAIツールを使って知的財産を盗み、その後弁護士を雇って法的問題に対処することができると述べました。

エリック・シュミットは常に物議を醸しているTikTokを例に挙げ、「TikTokが禁止されたら、皆さんにTikTokのコピーを作り、すべてのユーザーを盗み、すべての音楽を盗み、好みを入れ、30秒以内にそのプログラムを作成して公開することをお勧めします」と述べました。さらに彼は、「シリコンバレーの起業家なら、製品が離陸した場合は大勢の弁護士を雇って後始末をしますが、誰も製品を使用しなければ、すべてのコンテンツを盗んでも問題ありません」と説明しました。

元GoogleのCEOとして、エリック・シュミットが提案したこの処方箋は確かに「シリコンバレー精神」に満ちています。数週間前、『エコノミスト』誌は「AI企業はすぐにインターネットデータの大部分を使い果たす」というタイトルの記事で、2028年までにインターネット上の高品質なテキストデータがすべて使い果たされ、機械学習データセットは2026年までに「高品質な言語データ」をすべて使い尽くす可能性があると指摘しました。

合成データは以前、業界で効果的な解決策と考えられていました。人間が生成するデータがAI大規模モデルの反復ニーズに追いつかないのであれば、AIが生成したデータを直接使用すればよいという考えでした。しかし、7月末に『Nature』に掲載された論文で、AIが生成したデータセットを使用して大規模モデルを訓練すると、その出力が汚染され、「モデル崩壊」（model collapse）の問題を避けられないことが確認されました。この論文の発表により、AI企業は合成データの使用にさらに慎重になるでしょう。

Common CrawlデータセットやThe Pile言語コーパスなどのオープンソースデータベースは、すでにGPT-4やGeminiなど多くの有名・無名の大規模モデルを育てています。現在の状況は、無料でオープンソースで品質が保証されたデータベースがほぼ使い尽くされ、一方で有料のデータは至る所にあります。例えば、X、Reddit、そして各ニュースメディアは明らかに自社のデータを販売することを喜んでいます。

エリック・シュミットがAIスタートアップにデータを盗むことを提案したのと同時期に、『Nature』は再び大きなニュースを報じました。Taylor&FrancisやWileyなどの多くの学術出版社が、マイクロソフトなどの企業に自社の論文への有料アクセスを提供し、関連する科学論文を使って大規模モデルを訓練できるようにしたというのです。しかし問題は、1セントを2つに割って使いたいAIスタートアップが、データに対して支払いをしたがらないことです。

AIスタートアップにとって、運営コストは主に計算能力、人材、そしてデータです。AGIが真に実現するまでは、AI科学者やプログラマーを雇ってAIを訓練することは不可欠な作業であり、NVIDIAから計算カードを購入することも必須の支出です。結局のところ、AIスタートアップがTSMCの工場からチップを盗むことはできません。実際、エリック・シュミットが言うように、AIスタートアップがまずデータを盗み、その後弁護士で問題を解決できるということは、彼が確かにGoogleを技術巨人に成長させた重要な推進力であり、適格なシリコンバレー人であることを証明しています。

シリコンバレーには「Fake it until you make it」（成功するまで見せかけろ）という古典的な格言があります。前世紀のジョブズによるAppleの創立から、ザッカーバーグによるソーシャルネットワークの構築、そしてマスクによるTeslaの創造まで、世代を超えてシリコンバレーの人々はこの格言に導かれて大きな事業を築いてきました。

まず自分のアイデアを誇張し、投資家に良いストーリーを売り込み、資本と人材を引き付けてから目標に向かって努力し、最終的に実現するというのがシリコンバレーの起業家たちの秘訣です。将来を誇張し、失敗を隠し、データを捏造し、常識を無視することはシリコンバレーでは珍しくありません。例えば、以前ジョブズが口にしていた「海賊精神」は、目標に集中し、手段を選ばず、常識を打ち破り、さらには道徳を脇に置くことを意味していました。

現在、AI起業家の最大の課題は生き残ることです。AI投資ブームの退潮とAIバブル論の台頭により、投資家のAIスタートアップに対する態度は熱狂的ではなくなり、むしろますます慎重になっています。これにより、資金調達の難易度が高まっています。このような状況下では、性能の良い大規模モデルを提示できるスタートアップだけが、存続のための資金を獲得できます。

常識を破らず、従来通りの方法を続けた結果、大胆に新しい道を行く競合他社に追い越されることになります。そのため、エリック・シュミットの言葉はAIスタートアップにとって「金言」となります。製品が失敗し、企業自体が倒産すれば、侵害賠償を求める人もいなくなります。しかし、一旦成功すれば、資金を持った企業は「訴訟和解」で問題を解決できます。

実際、エリック・シュミットがこの驚くべき発言をする前から、多くのAIスタートアップがデータを「盗む」という行為を実践していました。「乱世」はすでに到来しており、シリコンバレーの大物であるエリック・シュミットが今になってこの現実を公に認めただけです。結局のところ、データに対して無限の渇望を持つAIスタートアップが技術的手段でデータ所有者の防御を破り、後者が次々と「要塞」を築くことは、ほぼ避けられない未来なのです。

AIデータ論争：シリコンバレーの大物たちが企業の情報「借用」を支持する理由

動乱の時代は実際にすでに到来しており、今回はただその事実を公に認めただけです。