Equipe da OpenAI enfrenta controvérsia na coleta de dados: contorno de proibições gera insatisfação dos usuários

A equipe do Claude recentemente gerou controvérsia devido à extração em larga escala do conteúdo do site de uma empresa. A situação específica é a seguinte:

1 milhão de acessos aos servidores da empresa em 24 horas, extraindo conteúdo do site sem pagamento
Ignorou o aviso de "proibição de extração" do site, forçando o uso dos recursos do servidor
A empresa afetada tentou se defender, mas falhou, e os dados de conteúdo ainda foram capturados

O responsável pela empresa expressou sua insatisfação nas redes sociais:

Ei, Anthropic, sei que vocês estão sedentos por dados. Claude é realmente inteligente! Mas sabe de uma coisa, isso não é! Legal! Oh!

Muitos internautas expressaram raiva sobre isso, com alguns sugerindo usar "roubar" em vez de "sem pagamento" para descrever o comportamento da Anthropic.

Detalhes do incidente:

A empresa afetada é a iFixit, um site americano que fornece guias de reparo de produtos eletrônicos
O programa de rastreamento do Claude, ClaudeBot, enviou milhares de solicitações por minuto em poucas horas
Cerca de 1 milhão de acessos em um dia, baixando 10 TB de arquivos, totalizando 73 TB em maio
O site iFixit declara proibição de cópia não autorizada de conteúdo para treinamento de IA
O CEO da iFixit afirmou que o ClaudeBot extraiu todos os dados sem permissão, sobrecarregando os servidores
A iFixit modificou seu arquivo robots.txt para bloquear o rastreador da Anthropic

A Anthropic respondeu dizendo que desativou o antigo rastreador, mas não respondeu se o ClaudeBot respeita o robots.txt.

Esta não é a primeira vez que empresas de IA extraem conteúdo de sites em larga escala:

Em abril deste ano, o fórum Linux Mint travou devido à extração pelo ClaudeBot
Alguns sugeriram plantar informações rastreáveis nos sites para detectar roubo de dados
A iFixit descobriu que suas informações foram extraídas não só pelo Claude, mas também pela OpenAI
Várias empresas de IA foram acusadas de ignorar as configurações do robots.txt e forçar a extração

Algumas pessoas estão pedindo aos criadores que movam o conteúdo para áreas pagas para evitar extração ilimitada. No entanto, resta saber se essa abordagem será eficaz.

Equipe da OpenAI enfrenta controvérsia na coleta de dados: contorno de proibições gera insatisfação dos usuários

Indignação popular: Ladrões!