AI pénurie de données s'aggrave : un rapport du MIT indique une diminution croissante des données publiques sur le web

L'accessibilité des données ouvertes diminue progressivement, et les informations autrefois faciles à obtenir deviennent de plus en plus difficiles à acquérir.

01 Méthodes de recherche

Généralement, il existe deux types de mesures pour limiter les robots d'exploration web :

  • Le Protocole d'exclusion des robots (Robots Exclusion Protocol, REP)
  • Les conditions d'utilisation du site (Terms of Service, ToS)

La naissance du REP remonte à 1995, avant l'ère de l'IA. Ce protocole exige l'inclusion d'un fichier robots.txt dans les fichiers source du site pour gérer les activités des robots tels que les robots d'exploration web, par exemple pour les agents utilisateurs (user agents) ou les autorisations d'accès à des fichiers spécifiques.

Vous pouvez considérer l'effet du robots.txt comme un panneau "code de conduite" affiché dans une salle de sport, un bar ou un centre communautaire. Il n'a en soi aucun pouvoir contraignant, les bons robots suivront les directives, mais les mauvais robots peuvent simplement les ignorer.

L'étude a examiné les sources de sites web de 3 ensembles de données, comme indiqué dans le tableau 1. Ce sont tous des ensembles de données open source largement influents, avec des téléchargements allant de 100k à 1M+.

Pour chaque source de données, les 2k premiers noms de domaine de sites web classés par nombre total de tokens ont été pris en union, pour un total de 3,95k noms de domaine de sites web, notés HEADAll. Ceux provenant uniquement de l'ensemble de données C4 sont notés HEADC4, et peuvent être considérés comme les sources de données d'entraînement d'IA les plus volumineuses, les plus fréquemment mises à jour et les plus cruciales.

Un échantillon aléatoire de 10k noms de domaine (RANDOM10k) a été prélevé, dont 2k ont été sélectionnés au hasard pour une annotation manuelle (RANDOM2k). RANDOM10k a été échantillonné uniquement à partir de l'intersection des noms de domaine des trois ensembles de données, ce qui signifie qu'ils sont plus susceptibles d'être des pages web de haute qualité.

Comme indiqué dans le tableau 2, l'annotation manuelle de RANDOM2k couvrait de nombreux aspects, y compris diverses propriétés du contenu et les autorisations d'accès. Pour une comparaison longitudinale dans le temps, les auteurs ont consulté les données historiques des pages web archivées par Wayback Machine.

Le contenu des annotations manuelles utilisé dans l'étude a été rendu public pour faciliter la reproduction des recherches futures.

02 Aperçu des résultats

Augmentation des restrictions de données

En plus de collecter des données historiques, l'article a également utilisé la méthode SARIMA (Seasonal Autoregressive Integrated Moving Average) pour prédire les tendances futures.

En ce qui concerne les restrictions du robots.txt, depuis l'apparition de GPTBot (mi-2023), le nombre de sites web imposant des restrictions complètes a fortement augmenté, tandis que le nombre de restrictions dans les conditions d'utilisation a augmenté de manière plus stable et équilibrée, se concentrant davantage sur les utilisations commerciales.

Selon les prédictions du modèle SARIMA, cette tendance à l'augmentation des restrictions se poursuivra, tant pour le robots.txt que pour les ToS.

Le graphique suivant calcule la proportion de sites web restreignant des agents spécifiques d'organisations ou d'entreprises. On peut voir que les robots d'OpenAI sont largement en tête, suivis par Anthropic, Google et les robots d'exploration des ensembles de données open source Common Crawl.

Du point de vue du nombre de tokens, on observe une tendance similaire.

Licences AI incohérentes et inefficaces

Il existe des différences considérables dans le degré d'autorisation des agents AI de différentes organisations sur divers sites web.

OpenAI, Anthropic et Common Crawl occupent les trois premières places en termes de proportion de restrictions, toutes dépassant 80%, tandis que les propriétaires de sites web sont généralement plus tolérants et ouverts aux robots d'exploration non liés à l'IA comme Internet Archive ou Google Search.

Le robots.txt est principalement utilisé pour réglementer le comportement des robots d'exploration web, tandis que les conditions d'utilisation du site sont des accords juridiques avec les utilisateurs. Le premier est plus mécanique, structuré mais plus applicable, tandis que le second peut exprimer des stratégies plus riches et nuancées.

Les deux devraient se compléter, mais dans la pratique, le robots.txt ne parvient souvent pas à saisir l'intention des conditions d'utilisation, et il y a même souvent des significations contradictoires (figure 3).

Inadéquation entre les cas d'utilisation réels et les données web

L'article compare la distribution du contenu des pages web avec celle des questions dans l'ensemble de données WildChat, qui est une collection récente de données utilisateurs de ChatGPT contenant environ 1M de conversations.

Comme on peut le voir sur la figure 4, les différences sont très significatives. Les actualités et les encyclopédies, qui représentent la plus grande proportion des données web, sont presque négligeables dans les données utilisateurs, tandis que la fonction d'écriture fictive fréquemment utilisée par les utilisateurs est également rare dans les données web.