El equipo de Claude ha generado controversia recientemente por el raspado masivo del contenido del sitio web de una empresa. La situación es la siguiente:
- Accedieron al servidor de la empresa 1 millón de veces en 24 horas, raspando el contenido del sitio web sin pagar
- Ignoraron los avisos de "prohibido raspar" del sitio web, forzando el uso de recursos del servidor
- La empresa afectada intentó defenderse pero fracasó, y sus datos de contenido fueron capturados
El responsable de la empresa expresó su descontento en redes sociales:
Oye, Anthropic, sé que estás hambriento de datos. ¡Claude es realmente inteligente! Pero ¿sabes qué? ¡Esto no es! ¡Nada! ¡Genial!
Muchos internautas expresaron su indignación, y algunos sugirieron usar "robar" en lugar de "sin pagar" para describir las acciones de Anthropic.
Detalles del incidente:
- La empresa afectada es iFixit, un sitio web estadounidense que proporciona guías de reparación de productos electrónicos
- El programa de raspado de Claude, ClaudeBot, envió miles de solicitudes por minuto durante varias horas
- Aproximadamente 1 millón de visitas en un día, descargando 10 TB de archivos, 73 TB en total en mayo
- El sitio web de iFixit declara la prohibición de copiar contenido sin permiso para entrenamiento de IA
- El CEO de iFixit afirmó que ClaudeBot raspó todos los datos sin permiso, saturando el servidor
- iFixit ha modificado su archivo robots.txt para bloquear el rastreador de Anthropic
Anthropic respondió que ha desactivado su antiguo rastreador, pero no abordó si ClaudeBot respeta robots.txt.
Esta no es la primera vez que empresas de IA raspan masivamente contenido de sitios web:
- En abril, el foro de Linux Mint se bloqueó debido al raspado de ClaudeBot
- Se sugirió plantar información rastreable en sitios web para detectar el robo de datos
- iFixit descubrió que su información fue raspada no solo por Claude, sino también obtenida por OpenAI
- Se acusa a varias empresas de IA de ignorar la configuración de robots.txt y raspar forzosamente
Algunos piden a los creadores que muevan el contenido a áreas de pago para prevenir el raspado ilimitado. Sin embargo, queda por ver si esta estrategia será efectiva.