OpenAI團隊數據採集引爭議:規避禁令引發用戶不滿

民眾憤怒:竊賊!

Claude團隊近期因大規模爬取某公司網站內容而引發爭議。具體情況如下:

  • 24小時內訪問該公司伺服器100萬次,以不付費形式爬取網站內容
  • 無視網站"禁止爬取"的公告,強行佔用伺服器資源
  • 受影響公司嘗試防禦但失敗,內容數據仍被抓取

該公司負責人在社交媒體上表達不滿:

嘿,Anthropic,我知道您渴望數據。Claude真的很聰明!但你造嗎,這一點也不!酷!哦!

許多網友對此表示憤怒,有人建議用"偷"而非"不付費"來描述Anthropic的行為。

事件詳情:

  • 受影響公司為iFixit,是美國一家提供電子產品維修指南的網站
  • Claude的爬蟲程式ClaudeBot在幾小時內每分鐘發送數千次請求
  • 一天內訪問約100萬次,下載10 TB檔案,5月份總計73 TB
  • iFixit網站聲明禁止未經許可複製內容用於AI訓練
  • iFixit CEO表示ClaudeBot未經許可爬取所有數據,佔滿伺服器
  • iFixit已修改robots.txt檔案以阻止Anthropic爬蟲

Anthropic回應稱已停用舊爬蟲,但未回應ClaudeBot是否遵守robots.txt。

這並非AI公司首次大規模爬取網站內容:

  • 今年4月Linux Mint論壇遭ClaudeBot爬取導致崩潰
  • 有人建議在網站植入可追蹤資訊以檢測數據被盜
  • iFixit發現自身資訊不僅被Claude爬取,還被OpenAI獲取
  • 多家AI公司被指忽視robots.txt設置強行爬取

一些人呼籲創作者將內容轉移到付費區域,以防止無限制抓取。但這種做法能否奏效仍有待觀察。