OpenAIチームのデータ収集が物議を醸す:禁止事項の回避で利用者の不満を招く

民衆の怒り:泥棒!

Claudeチームが最近ある会社のウェブサイトの内容を大規模に収集したことで論争を引き起こしました。具体的な状況は以下の通りです:

  • 24時間以内にその会社のサーバーに100万回アクセスし、無料で웹サイトの内容を収集
  • ウェブサイトの「クローリング禁止」の通知を無視し、サーバーリソースを強制的に占有
  • 影響を受けた会社は防御を試みたが失敗し、コンテンツデータは依然として収集された

影響を受けた会社の責任者がソーシャルメディアで不満を表明しました:

ヘイ、Anthropic、データに飢えているのはわかります。Claudeは本当に賢いですね!でも、これは全然!クールじゃない!よ!

多くのネットユーザーがこれに怒りを表明し、Anthropicの行為を「無料」ではなく「盗む」と表現すべきだと提案する人もいました。

事件の詳細:

  • 影響を受けた会社はiFixitで、米国の電子製品修理ガイドを提供するウェブサイトです
  • ClaudeのクローラープログラムClaudeBotは数時間で毎分数千回のリクエストを送信
  • 1日で約100万回アクセスし、10 TBのファイルをダウンロード、5月の合計は73 TB
  • iFixitのウェブサイトは許可なくAIトレーニング用にコンテンツをコピーすることを禁止すると宣言
  • iFixitのCEOはClaudeBotが許可なくすべてのデータを収集し、サーバーを占有したと述べた
  • iFixitはrobots.txtファイルを修正してAnthropicのクローラーをブロックしました

Anthropicは古いクローラーを無効にしたと回答しましたが、ClaudeBotがrobots.txtに従っているかどうかについては回答しませんでした。

これはAI企業が初めてウェブサイトの内容を大規模に収集した事例ではありません:

  • 今年4月、Linux MintフォーラムがClaudeBotによる収集で崩壊
  • データ盗難を検出するために、ウェブサイトに追跡可能な情報を埋め込むことを提案する人もいる
  • iFixitは自社の情報がClaudeに収集されただけでなく、OpenAIにも取得されたことを発見
  • 複数のAI企業がrobots.txtの設定を無視して強制的に収集したと指摘されている

一部の人々はクリエイターにコンテンツを有料エリアに移動させ、無制限の収集を防ぐよう呼びかけています。しかし、この方法が効果を発揮するかどうかはまだ不明です。