AI數據短缺加劇:MIT報告指出網頁公開數據日益減少

開放數據的可及性正在逐步降低,曾經易於獲取的資訊變得日益困難。

01 研究方法

通常來說,限制網頁爬蟲的措施有以下兩種:

  • 機器人排除協議(Robots Exclusion Protocol, REP)
  • 網站的服務條款(Terms of Service, ToS)

REP的誕生還要追溯到AI時代之前的1995年,這個協議要求在網站源文件中包含robots.txt以管理網絡爬蟲等機器人的活動,比如用戶代理(user agent)或具體文件的訪問權限。

你可以將robots.txt的效力視為張貼在健身房、酒吧或社區中心牆上的「行為準則」標誌。它本身沒有任何強制效力,好的機器人會遵循準則,但壞的機器人可以直接無視。

論文共調查了3個數據集的網站來源,具體如表1所示。這些都是有廣泛影響力的開源數據集,下載量在100k~1M+不等。

每個數據來源,token總量排名前2k的網站域名,取並集,共整理出3.95k個網站域名,記為HEADAll,其中僅來源於C4數據集的記為HEADC4,可以看作是體量最大、維護最頻繁、最關鍵領域的AI訓練數據來源。

隨機採樣10k個域名(RANDOM10k),其中再隨機選取2k個進行人工標註(RANDOM2k)。RANDOM10k僅從三個數據集的域名交集中採樣,這意味著他們更可能是質量較高的網頁。

如表2所示,對RANDOM2k進行人工標註時涵蓋了許多方面,包括內容的各種屬性以及訪問權限。為了進行時間上的縱向比對,作者參考了Wayback Machine收錄的網頁歷史數據。

研究所用的人工標註內容都已公開,方便未來研究進行複現。

02 結果概述

數據限制增加

除了收集歷史數據,論文還使用SARIMA方法(Seasonal Autoregressive Integrated Moving Average)對未來趨勢進行了預測。

從robots.txt的限制來看,從GPTBot出現(2023年中期)後,進行完全限制的網站數量激增,但服務條款的限制數量增長較為穩定且均衡,更多關注商業用途。

根據SARIMA模型的預測,無論是robots.txt還是ToS,這種限制數增長的趨勢都會持續下去。

下面這種圖計算了網站限制的特定組織或公司的agent比例,可以看到OpenAI的機器人遙遙領先,其次是Anthropic、谷歌以及開源數據集Common Crawl的爬蟲。

從token數量的角度,也能看到類似的趨勢。

不一致且無效的AI許可

不同組織的AI agent的在各網站上的許可程度存在相當大的差異。

OpenAI、Anthropic和Common Crawl的受限佔比位列前三,都達到了80%以上,而網站所有者對Internet Archive或谷歌搜索這類非AI領域的爬蟲通常都比較寬容開放。

robots.txt主要用於規範網頁爬蟲的行為,而網站的服務條款是和使用者之間的法律協議,前者較為機械化、結構化但可執行度高,後者能表達更豐富、細微的策略。

二者本應相互補足,但在實際中,robots.txt常常無法捕捉到服務條款的意圖,甚至常常有互相矛盾的含義(圖3)。

現實用例與網頁數據的不匹配

論文將網頁內容與WildChat數據集中的問題分布進行對比,這是最近收集的ChatGPT的用戶數據,包含約1M份對話。

從圖4中可以發現,二者的差別十分顯著。網頁數據中佔比最大的新聞和百科在用戶數據中幾乎微不足道,用戶經常使用的虛構寫作功能在網頁數據中也很少見。