AI данных становится все меньше: отчет MIT указывает на сокращение общедоступных данных в интернете

Доступность открытых данных постепенно снижается, и информация, которая когда-то была легко доступна, становится все труднее для получения.

01 Методы исследования

Обычно существуют два способа ограничения веб-краулеров:

  • Протокол исключения роботов (Robots Exclusion Protocol, REP)
  • Условия использования сайта (Terms of Service, ToS)

REP появился еще в 1995 году, до эпохи ИИ. Этот протокол требует включения robots.txt в исходные файлы сайта для управления активностью веб-краулеров и других роботов, например, для определения прав доступа пользовательских агентов (user agent) или конкретных файлов.

Вы можете рассматривать эффективность robots.txt как знак "правил поведения", размещенный на стене спортзала, бара или общественного центра. Сам по себе он не имеет принудительной силы, хорошие роботы будут следовать правилам, но плохие роботы могут их просто игнорировать.

В исследовании были изучены источники веб-сайтов из 3 наборов данных, как показано в таблице 1. Это влиятельные открытые наборы данных с количеством загрузок от 100 тысяч до более 1 миллиона.

Для каждого источника данных были взяты домены 2000 лучших сайтов по общему количеству токенов, объединены, и в итоге получено 3950 доменов, обозначенных как HEADAll. Домены, происходящие только из набора данных C4, обозначены как HEADC4 и могут рассматриваться как источники данных для обучения ИИ в наиболее важных областях, с наибольшим объемом и частым обновлением.

Случайным образом были выбраны 10000 доменов (RANDOM10k), из которых 2000 были отобраны для ручной разметки (RANDOM2k). RANDOM10k выбирались только из пересечения доменов трех наборов данных, что означает, что они с большей вероятностью являются веб-страницами высокого качества.

Как показано в таблице 2, ручная разметка RANDOM2k охватывала многие аспекты, включая различные атрибуты контента и права доступа. Для сравнения во времени авторы использовали исторические данные веб-страниц, собранные Wayback Machine.

Содержание ручной разметки, использованной в исследовании, было опубликовано для облегчения воспроизведения будущих исследований.

02 Обзор результатов

Увеличение ограничений данных

Помимо сбора исторических данных, в статье использовался метод SARIMA (Seasonal Autoregressive Integrated Moving Average) для прогнозирования будущих тенденций.

С точки зрения ограничений robots.txt, после появления GPTBot (середина 2023 года) количество сайтов с полным ограничением резко возросло, в то время как рост ограничений в условиях использования был более стабильным и равномерным, с большим акцентом на коммерческое использование.

Согласно прогнозам модели SARIMA, эта тенденция роста ограничений будет продолжаться как для robots.txt, так и для ToS.

На следующем графике показана доля сайтов, ограничивающих конкретные организации или компании. Видно, что роботы OpenAI лидируют с большим отрывом, за ними следуют Anthropic, Google и краулеры открытого набора данных Common Crawl.

Аналогичная тенденция наблюдается и с точки зрения количества токенов.

Несогласованные и неэффективные лицензии ИИ

Существуют значительные различия в степени разрешения AI-агентов различных организаций на разных сайтах.

OpenAI, Anthropic и Common Crawl занимают первые три места по доле ограничений, все превышают 80%, в то время как владельцы сайтов обычно более терпимы и открыты к краулерам не из области ИИ, таким как Internet Archive или Google Search.

Robots.txt в основном используется для регулирования поведения веб-краулеров, в то время как условия использования сайта являются юридическим соглашением между сайтом и пользователями. Первый более механический, структурированный, но более выполнимый, второй может выражать более богатые и тонкие стратегии.

Они должны дополнять друг друга, но на практике robots.txt часто не может уловить намерения условий использования и даже часто имеет противоречивые значения (рисунок 3).

Несоответствие между реальными случаями использования и веб-данными

В статье сравнивается содержание веб-страниц с распределением вопросов в наборе данных WildChat, который представляет собой недавно собранные пользовательские данные ChatGPT, включающие около 1 миллиона диалогов.

Как видно из рисунка 4, различия между ними весьма значительны. Новости и энциклопедии, которые занимают наибольшую долю в веб-данных, почти незаметны в пользовательских данных, а функция написания художественных текстов, часто используемая пользователями, редко встречается в веб-данных.