OpenAI团队数据采集引争议:规避禁令引发用户不满

人们生气地喊道:小偷!

Claude团队近期因大规模爬取某公司网站内容而引发争议。具体情况如下:

  • 24小时内访问该公司服务器100万次,以不付费形式爬取网站内容
  • 无视网站"禁止爬取"的公告,强行占用服务器资源
  • 受影响公司尝试防御但失败,内容数据仍被抓取

该公司负责人在社交媒体上表达不满:

嘿,Anthropic,我知道你渴望数据。Claude真的很聪明!但你知道吗,这一点也不!酷!哦!

许多网友对此表示愤怒,有人建议用"偷"而非"不付费"来描述Anthropic的行为。

事件详情:

  • 受影响公司为iFixit,是美国一家提供电子产品维修指南的网站
  • Claude的爬虫程序ClaudeBot在几小时内每分钟发送数千次请求
  • 一天内访问约100万次,下载10 TB文件,5月份总计73 TB
  • iFixit网站声明禁止未经许可复制内容用于AI训练
  • iFixit CEO表示ClaudeBot未经许可爬取所有数据,占满服务器
  • iFixit已修改robots.txt文件以阻止Anthropic爬虫

Anthropic回应称已停用旧爬虫,但未回应ClaudeBot是否遵守robots.txt。

这并非AI公司首次大规模爬取网站内容:

  • 今年4月Linux Mint论坛遭ClaudeBot爬取导致崩溃
  • 有人建议在网站植入可追踪信息以检测数据被盗
  • iFixit发现自身信息不仅被Claude爬取,还被OpenAI获取
  • 多家AI公司被指忽视robots.txt设置强行爬取

一些人呼吁创作者将内容转移到付费区域,以防止无限制抓取。但这种做法能否奏效仍有待观察。