AI数据短缺加剧:麻省理工学院报告指出网页公开数据日益减少

开放数据的可获取性正在逐渐下降,以前容易获得的信息变得越来越难以获取。

01 研究方法

通常来说,限制网页爬虫的措施有以下两种:

  • 机器人排除协议(Robots Exclusion Protocol, REP)
  • 网站的服务条款(Terms of Service, ToS)

REP的诞生还要追溯到AI时代之前的1995年,这个协议要求在网站源文件中包含robots.txt以管理网络爬虫等机器人的活动,比如用户代理(user agent)或具体文件的访问权限。

你可以将robots.txt的效力视为张贴在健身房、酒吧或社区中心墙上的"行为准则"标志。它本身没有任何强制效力,好的机器人会遵循准则,但坏的机器人可以直接无视。

论文共调查了3个数据集的网站来源,具体如表1所示。这些都是有广泛影响力的开源数据集,下载量在100k~1M+不等。

每个数据来源,token总量排名前2k的网站域名,取并集,共整理出3.95k个网站域名,记为HEADAll,其中仅来源于C4数据集的记为HEADC4,可以看作是体量最大、维护最频繁、最关键领域的AI训练数据来源。

随机采样10k个域名(RANDOM10k),其中再随机选取2k个进行人工标注(RANDOM2k)。RANDOM10k仅从三个数据集的域名交集中采样,这意味着他们更可能是质量较高的网页。

如表2所示,对RANDOM2k进行人工标注时涵盖了许多方面,包括内容的各种属性以及访问权限。为了进行时间上的纵向比对,作者参考了Wayback Machine收录的网页历史数据。

研究所用的人工标注内容都已公开,方便未来研究进行复现。

02 结果概述

数据限制增加

除了收集历史数据,论文还使用SARIMA方法(季节性自回归综合移动平均)对未来趋势进行了预测。

从robots.txt的限制来看,从GPTBot出现(2023年中期)后,进行完全限制的网站数量激增,但服务条款的限制数量增长较为稳定且均衡,更多关注商业用途。

根据SARIMA模型的预测,无论是robots.txt还是ToS,这种限制数增长的趋势都会持续下去。

下面这种图计算了网站限制的特定组织或公司的agent比例,可以看到OpenAI的机器人遥遥领先,其次是Anthropic、谷歌以及开源数据集Common Crawl的爬虫。

从token数量的角度,也能看到类似的趋势。

不一致且无效的AI许可

不同组织的AI agent的在各网站上的许可程度存在相当大的差异。

OpenAI、Anthropic和Common Crawl的受限占比位列前三,都达到了80%以上,而网站所有者对Internet Archive或谷歌搜索这类非AI领域的爬虫通常都比较宽容开放。

robots.txt主要用于规范网页爬虫的行为,而网站的服务条款是和使用者之间的法律协议,前者较为机械化、结构化但可执行度高,后者能表达更丰富、细微的策略。

二者本应相互补足,但在实际中,robots.txt常常无法捕捉到服务条款的意图,甚至常常有互相矛盾的含义(图3)。

现实用例与网页数据的不匹配

论文将网页内容与WildChat数据集中的问题分布进行对比,这是最近收集的ChatGPT的用户数据,包含约1M份对话。

从图4中可以发现,二者的差别十分显著。网页数据中占比最大的新闻和百科在用户数据中几乎微不足道,用户经常使用的虚构写作功能在网页数据中也很少见。