Claude团队近期因大规模爬取某公司网站内容而引发争议。具体情况如下:
- 24小时内访问该公司服务器100万次,以不付费形式爬取网站内容
- 无视网站"禁止爬取"的公告,强行占用服务器资源
- 受影响公司尝试防御但失败,内容数据仍被抓取
该公司负责人在社交媒体上表达不满:
嘿,Anthropic,我知道你渴望数据。Claude真的很聪明!但你知道吗,这一点也不!酷!哦!
许多网友对此表示愤怒,有人建议用"偷"而非"不付费"来描述Anthropic的行为。
事件详情:
- 受影响公司为iFixit,是美国一家提供电子产品维修指南的网站
- Claude的爬虫程序ClaudeBot在几小时内每分钟发送数千次请求
- 一天内访问约100万次,下载10 TB文件,5月份总计73 TB
- iFixit网站声明禁止未经许可复制内容用于AI训练
- iFixit CEO表示ClaudeBot未经许可爬取所有数据,占满服务器
- iFixit已修改robots.txt文件以阻止Anthropic爬虫
Anthropic回应称已停用旧爬虫,但未回应ClaudeBot是否遵守robots.txt。
这并非AI公司首次大规模爬取网站内容:
- 今年4月Linux Mint论坛遭ClaudeBot爬取导致崩溃
- 有人建议在网站植入可追踪信息以检测数据被盗
- iFixit发现自身信息不仅被Claude爬取,还被OpenAI获取
- 多家AI公司被指忽视robots.txt设置强行爬取
一些人呼吁创作者将内容转移到付费区域,以防止无限制抓取。但这种做法能否奏效仍有待观察。