AIデータ不足の悪化:MITの報告書がウェブ上の公開データの減少を指摘

オープンデータのアクセシビリティは徐々に低下しており、かつては簡単に入手できた情報が次第に入手困難になってきています。

01 研究方法

一般的、ウェブクローラーを制限する方法は以下の2つです:

  • ロボット排除プロトコル(Robots Exclusion Protocol, REP)
  • ウェブサイトの利用規約(Terms of Service, ToS)

REPの誕生はAI時代以前の1995年にさかのぼります。このプロトコルは、ウェブサイトのソースファイルにrobots.txtを含めることで、ウェブクローラーなどのロボットの活動を管理することを要求します。例えば、ユーザーエージェント(user agent)や特定のファイルへのアクセス権限などです。

robots.txtの効力は、ジム、バー、コミュニティセンターの壁に貼られた「行動規範」の看板のようなものと考えることができます。それ自体には強制力はなく、良いロボットは規範に従いますが、悪いロボットは無視することができます。

論文では、表1に示すように3つのデータセットのウェブサイト源を調査しました。これらはすべて広く影響力のあるオープンソースデータセットで、ダウンロード数は100k~1M+に及びます。

各データソースから、トークン総数でランク付けした上位2kのウェブサイトドメインを取り、和集合を取ることで、合計3.95kのウェブサイトドメインを整理し、HEADAllと記録しました。そのうち、C4データセットのみに由来するものをHEADC4とし、最大規模で、最も頻繁に維持され、最も重要な分野のAIトレーニングデータソースと見なすことができます。

ランダムに10kのドメインをサンプリングし(RANDOM10k)、そのうちさらにランダムに2kを選んで人手でアノテーションを行いました(RANDOM2k)。RANDOM10kは3つのデータセットのドメインの交集からのみサンプリングされており、これは質の高いウェブページである可能性が高いことを意味します。

表2に示すように、RANDOM2kの人手によるアノテーションでは、コンテンツの様々な属性やアクセス権限など、多くの側面をカバーしています。時間的な縦断比較を行うため、著者はWayback Machineに収録されたウェブページの履歴データを参照しました。

研究に使用された人手によるアノテーションデータはすべて公開されており、将来の研究での再現が容易になっています。

02 結果概要

データ制限の増加

歴史的データの収集に加えて、論文ではSARIMA法(季節性自己回帰統合移動平均)を用いて将来のトレンドを予測しました。

robots.txtの制限に関しては、GPTBot登場(2023年中期)以降、完全に制限するウェブサイトの数が急増しましたが、利用規約の制限数の増加は比較的安定しており、商業利用により焦点を当てています。

SARIMAモデルの予測によると、robots.txtとToSの両方において、この制限数の増加傾向は続くと予想されています。

以下の図は、ウェブサイトが特定の組織や企業のエージェントを制限している割合を計算したものです。OpenAIのロボットが圧倒的に多く、次いでAnthropic、Google、そしてオープンソースデータセットCommon Crawlのクローラーとなっています。

トークン数の観点からも、同様の傾向が見られます。

一貫性のない、効果のないAIライセンス

異なる組織のAIエージェントの各ウェブサイトでの許可度には、かなり大きな差があります。

OpenAI、Anthropic、Common Crawlの制限割合が上位3位を占め、いずれも80%以上に達しています。一方、ウェブサイト所有者は、Internet ArchiveやGoogleの検索など、AI以外の分野のクローラーに対しては通常、より寛容で開放的です。

robots.txtは主にウェブクローラーの行動を規制するために使用され、ウェブサイトの利用規約はユーザーとの法的合意です。前者はより機械的で構造化されていますが実行可能性が高く、後者はより豊かで細かい戦略を表現できます。

両者は相互に補完し合うべきですが、実際には、robots.txtは利用規約の意図を捉えきれないことが多く、むしろ矛盾した意味を持つことさえあります(図3)。

現実の使用例とウェブページデータの不一致

論文では、ウェブページの内容をWildChatデータセットの質問分布と比較しています。これは最近収集されたChatGPTのユーザーデータで、約1Mの対話を含んでいます。

図4から、両者の差が非常に大きいことがわかります。ウェブページデータで最大の割合を占めるニュースと百科事典は、ユーザーデータではほとんど無視できるほど少なく、ユーザーがよく使用するフィクション作成機能もウェブページデータではほとんど見られません。