AI數據短缺加劇：MIT報告指出網頁公開數據日益減少

01 研究方法

通常來說，限制網頁爬蟲的措施有以下兩種：

REP的誕生還要追溯到AI時代之前的1995年，這個協議要求在網站源文件中包含robots.txt以管理網絡爬蟲等機器人的活動，比如用戶代理（user agent）或具體文件的訪問權限。

你可以將robots.txt的效力視為張貼在健身房、酒吧或社區中心牆上的「行為準則」標誌。它本身沒有任何強制效力，好的機器人會遵循準則，但壞的機器人可以直接無視。

論文共調查了3個數據集的網站來源，具體如表1所示。這些都是有廣泛影響力的開源數據集，下載量在100k～1M+不等。

每個數據來源，token總量排名前2k的網站域名，取並集，共整理出3.95k個網站域名，記為HEADAll，其中僅來源於C4數據集的記為HEADC4，可以看作是體量最大、維護最頻繁、最關鍵領域的AI訓練數據來源。

隨機採樣10k個域名（RANDOM10k），其中再隨機選取2k個進行人工標註（RANDOM2k）。RANDOM10k僅從三個數據集的域名交集中採樣，這意味著他們更可能是質量較高的網頁。

如表2所示，對RANDOM2k進行人工標註時涵蓋了許多方面，包括內容的各種屬性以及訪問權限。為了進行時間上的縱向比對，作者參考了Wayback Machine收錄的網頁歷史數據。

研究所用的人工標註內容都已公開，方便未來研究進行複現。

除了收集歷史數據，論文還使用SARIMA方法（Seasonal Autoregressive Integrated Moving Average）對未來趨勢進行了預測。

從robots.txt的限制來看，從GPTBot出現（2023年中期）後，進行完全限制的網站數量激增，但服務條款的限制數量增長較為穩定且均衡，更多關注商業用途。

根據SARIMA模型的預測，無論是robots.txt還是ToS，這種限制數增長的趨勢都會持續下去。

下面這種圖計算了網站限制的特定組織或公司的agent比例，可以看到OpenAI的機器人遙遙領先，其次是Anthropic、谷歌以及開源數據集Common Crawl的爬蟲。

從token數量的角度，也能看到類似的趨勢。

不同組織的AI agent的在各網站上的許可程度存在相當大的差異。

OpenAI、Anthropic和Common Crawl的受限佔比位列前三，都達到了80%以上，而網站所有者對Internet Archive或谷歌搜索這類非AI領域的爬蟲通常都比較寬容開放。

robots.txt主要用於規範網頁爬蟲的行為，而網站的服務條款是和使用者之間的法律協議，前者較為機械化、結構化但可執行度高，後者能表達更豐富、細微的策略。

二者本應相互補足，但在實際中，robots.txt常常無法捕捉到服務條款的意圖，甚至常常有互相矛盾的含義（圖3）。

論文將網頁內容與WildChat數據集中的問題分布進行對比，這是最近收集的ChatGPT的用戶數據，包含約1M份對話。

從圖4中可以發現，二者的差別十分顯著。網頁數據中佔比最大的新聞和百科在用戶數據中幾乎微不足道，用戶經常使用的虛構寫作功能在網頁數據中也很少見。