A equipe do Claude recentemente gerou controvérsia devido à extração em larga escala do conteúdo do site de uma empresa. A situação específica é a seguinte:
- 1 milhão de acessos aos servidores da empresa em 24 horas, extraindo conteúdo do site sem pagamento
- Ignorou o aviso de "proibição de extração" do site, forçando o uso dos recursos do servidor
- A empresa afetada tentou se defender, mas falhou, e os dados de conteúdo ainda foram capturados
O responsável pela empresa expressou sua insatisfação nas redes sociais:
Ei, Anthropic, sei que vocês estão sedentos por dados. Claude é realmente inteligente! Mas sabe de uma coisa, isso não é! Legal! Oh!
Muitos internautas expressaram raiva sobre isso, com alguns sugerindo usar "roubar" em vez de "sem pagamento" para descrever o comportamento da Anthropic.
Detalhes do incidente:
- A empresa afetada é a iFixit, um site americano que fornece guias de reparo de produtos eletrônicos
- O programa de rastreamento do Claude, ClaudeBot, enviou milhares de solicitações por minuto em poucas horas
- Cerca de 1 milhão de acessos em um dia, baixando 10 TB de arquivos, totalizando 73 TB em maio
- O site iFixit declara proibição de cópia não autorizada de conteúdo para treinamento de IA
- O CEO da iFixit afirmou que o ClaudeBot extraiu todos os dados sem permissão, sobrecarregando os servidores
- A iFixit modificou seu arquivo robots.txt para bloquear o rastreador da Anthropic
A Anthropic respondeu dizendo que desativou o antigo rastreador, mas não respondeu se o ClaudeBot respeita o robots.txt.
Esta não é a primeira vez que empresas de IA extraem conteúdo de sites em larga escala:
- Em abril deste ano, o fórum Linux Mint travou devido à extração pelo ClaudeBot
- Alguns sugeriram plantar informações rastreáveis nos sites para detectar roubo de dados
- A iFixit descobriu que suas informações foram extraídas não só pelo Claude, mas também pela OpenAI
- Várias empresas de IA foram acusadas de ignorar as configurações do robots.txt e forçar a extração
Algumas pessoas estão pedindo aos criadores que movam o conteúdo para áreas pagas para evitar extração ilimitada. No entanto, resta saber se essa abordagem será eficaz.