01 Método de investigación
Generalmente, hay dos tipos de medidas para limitar los rastreadores web:
- Protocolo de exclusión de robots (Robots Exclusion Protocol, REP)
- Términos de servicio del sitio web (Terms of Service, ToS)
El nacimiento del REP se remonta a 1995, antes de la era de la IA. Este protocolo requiere que se incluya un archivo robots.txt en el código fuente del sitio web para gestionar las actividades de robots como los rastreadores web, por ejemplo, los agentes de usuario (user agent) o los permisos de acceso a archivos específicos.
Puedes considerar la efectividad del robots.txt como un cartel de "código de conducta" colgado en las paredes de un gimnasio, bar o centro comunitario. No tiene ningún poder de ejecución por sí mismo; los buenos robots seguirán las pautas, pero los malos robots pueden ignorarlas directamente.
El estudio investigó los orígenes de los sitios web de 3 conjuntos de datos, como se muestra en la Tabla 1. Estos son conjuntos de datos de código abierto de amplia influencia, con descargas que van desde 100k hasta más de 1M.
Para cada fuente de datos, se tomaron los 2k dominios de sitios web con mayor cantidad de tokens, se unieron, y se compilaron un total de 3.95k dominios de sitios web, denominados HEADAll. Los que provienen únicamente del conjunto de datos C4 se denominan HEADC4, y pueden considerarse como la fuente de datos de entrenamiento de IA más grande, más frecuentemente mantenida y de los campos más críticos.
Se tomó una muestra aleatoria de 10k dominios (RANDOM10k), de los cuales se seleccionaron aleatoriamente 2k para anotación manual (RANDOM2k). RANDOM10k se muestreó solo de la intersección de dominios de los tres conjuntos de datos, lo que significa que es más probable que sean páginas web de alta calidad.
Como se muestra en la Tabla 2, la anotación manual de RANDOM2k cubrió muchos aspectos, incluyendo varios atributos del contenido y permisos de acceso. Para hacer comparaciones longitudinales en el tiempo, los autores se refirieron a los datos históricos de páginas web recopilados por Wayback Machine.
El contenido de las anotaciones manuales utilizadas en el estudio se ha hecho público para facilitar la reproducción de futuras investigaciones.
02 Resumen de resultados
Aumento de las restricciones de datos
Además de recopilar datos históricos, el estudio también utilizó el método SARIMA (Seasonal Autoregressive Integrated Moving Average) para predecir tendencias futuras.
En cuanto a las restricciones de robots.txt, después de la aparición de GPTBot (mediados de 2023), el número de sitios web con restricciones completas aumentó drásticamente, mientras que el número de restricciones en los términos de servicio creció de manera más estable y equilibrada, centrándose más en los usos comerciales.
Según las predicciones del modelo SARIMA, esta tendencia de crecimiento de restricciones continuará tanto para robots.txt como para ToS.
El siguiente gráfico calcula la proporción de agentes de organizaciones o empresas específicas restringidos por los sitios web. Se puede ver que los robots de OpenAI están muy por delante, seguidos por Anthropic, Google y los rastreadores de conjuntos de datos de código abierto como Common Crawl.
Desde la perspectiva de la cantidad de tokens, se puede observar una tendencia similar.
Permisos de IA inconsistentes e ineficaces
Existe una gran variación en el grado de permiso de los agentes de IA de diferentes organizaciones en varios sitios web.
OpenAI, Anthropic y Common Crawl ocupan los tres primeros lugares en términos de proporción de restricciones, todos superando el 80%, mientras que los propietarios de sitios web suelen ser más tolerantes y abiertos con rastreadores no relacionados con IA como Internet Archive o la búsqueda de Google.
El robots.txt se utiliza principalmente para regular el comportamiento de los rastreadores web, mientras que los términos de servicio del sitio web son acuerdos legales con los usuarios. El primero es más mecánico, estructurado pero altamente ejecutable, mientras que el segundo puede expresar políticas más ricas y sutiles.
Ambos deberían complementarse entre sí, pero en la práctica, el robots.txt a menudo no logra capturar la intención de los términos de servicio, e incluso a menudo tienen significados contradictorios (Figura 3).
Desajuste entre casos de uso reales y datos web
El estudio comparó el contenido de las páginas web con la distribución de preguntas en el conjunto de datos WildChat, que es una colección reciente de datos de usuarios de ChatGPT que contiene alrededor de 1M de conversaciones.
Como se puede ver en la Figura 4, la diferencia entre los dos es muy significativa. Las noticias y enciclopedias, que ocupan la mayor proporción en los datos web, son casi insignificantes en los datos de usuarios, mientras que la función de escritura ficticia que los usuarios utilizan con frecuencia es rara en los datos web.