AI dados escassez se agrava: relatório do MIT aponta diminuição crescente de dados públicos na web

01 Métodos de Pesquisa

Geralmente, existem duas medidas para restringir os rastreadores da web:

Protocolo de Exclusão de Robôs (Robots Exclusion Protocol, REP)
Termos de Serviço do site (Terms of Service, ToS)

O nascimento do REP remonta a 1995, antes da era da IA, e este protocolo requer a inclusão de robots.txt nos arquivos de origem do site para gerenciar as atividades de robôs como rastreadores da web, por exemplo, agentes de usuário (user agent) ou permissões de acesso a arquivos específicos.

Você pode considerar a eficácia do robots.txt como um sinal de "código de conduta" afixado nas paredes de academias, bares ou centros comunitários. Não tem força obrigatória por si só; robôs bons seguirão as diretrizes, mas robôs ruins podem simplesmente ignorá-las.

O estudo investigou as fontes de sites de 3 conjuntos de dados, como mostrado na Tabela 1. Estes são conjuntos de dados de código aberto amplamente influentes, com downloads variando de 100k a 1M+.

Para cada fonte de dados, os 2k principais domínios de sites por contagem total de tokens foram unidos, resultando em 3,95k domínios de sites, denominados HEADAll, dos quais aqueles provenientes apenas do conjunto de dados C4 são chamados HEADC4, podendo ser considerados como as fontes de dados de treinamento de IA mais volumosas, frequentemente mantidas e de áreas mais críticas.

10k domínios foram amostrados aleatoriamente (RANDOM10k), dos quais 2k foram selecionados aleatoriamente para anotação manual (RANDOM2k). RANDOM10k foi amostrado apenas da interseção de domínios dos três conjuntos de dados, o que significa que eles são mais propensos a serem páginas da web de alta qualidade.

Como mostrado na Tabela 2, a anotação manual de RANDOM2k cobriu muitos aspectos, incluindo vários atributos do conteúdo e permissões de acesso. Para comparação longitudinal ao longo do tempo, os autores consultaram dados históricos de páginas da web arquivados no Wayback Machine.

O conteúdo anotado manualmente usado no estudo foi disponibilizado publicamente para facilitar a reprodução em pesquisas futuras.

02 Visão Geral dos Resultados

Aumento das Restrições de Dados

Além de coletar dados históricos, o artigo também usou o método SARIMA (Seasonal Autoregressive Integrated Moving Average) para prever tendências futuras.

Em termos de restrições do robots.txt, após o surgimento do GPTBot (meados de 2023), houve um aumento acentuado no número de sites com restrições totais, mas o aumento nas restrições dos termos de serviço foi mais estável e equilibrado, focando mais nos usos comerciais.

De acordo com as previsões do modelo SARIMA, essa tendência de aumento nas restrições continuará, tanto para o robots.txt quanto para os ToS.

O gráfico a seguir calcula a proporção de sites que restringem agentes de organizações ou empresas específicas, mostrando que os robôs da OpenAI lideram por uma margem significativa, seguidos por Anthropic, Google e rastreadores de conjuntos de dados de código aberto como o Common Crawl.

Uma tendência similar pode ser observada do ponto de vista da contagem de tokens.

Licenças de IA Inconsistentes e Ineficazes

Existe uma variação considerável no grau de permissão para agentes de IA de diferentes organizações em vários sites.

OpenAI, Anthropic e Common Crawl têm as maiores proporções de restrições, todas acima de 80%, enquanto os proprietários de sites geralmente são mais tolerantes e abertos a rastreadores não relacionados à IA, como o Internet Archive ou a pesquisa do Google.

O robots.txt é principalmente usado para regular o comportamento dos rastreadores da web, enquanto os termos de serviço do site são acordos legais com os usuários. O primeiro é mais mecânico, estruturado, mas altamente executável, enquanto o último pode expressar políticas mais ricas e sutis.

Idealmente, eles deveriam se complementar, mas na prática, o robots.txt frequentemente falha em capturar a intenção dos termos de serviço, e muitas vezes há significados contraditórios entre eles (Figura 3).

Incompatibilidade entre Casos de Uso Reais e Dados da Web

O artigo compara a distribuição de conteúdo das páginas da web com a distribuição de perguntas no conjunto de dados WildChat, que é uma coleção recente de dados de usuários do ChatGPT, contendo cerca de 1M de conversas.

Como pode ser visto na Figura 4, as diferenças são bastante significativas. Notícias e enciclopédias, que têm a maior proporção nos dados da web, são quase insignificantes nos dados dos usuários, e a função de escrita fictícia, frequentemente usada pelos usuários, é raramente vista nos dados da web.