Equipe da OpenAI enfrenta controvérsia na coleta de dados: contorno de proibições gera insatisfação dos usuários

Indignação popular: Ladrões!

A equipe do Claude recentemente gerou controvérsia devido à extração em larga escala do conteúdo do site de uma empresa. A situação específica é a seguinte:

  • 1 milhão de acessos aos servidores da empresa em 24 horas, extraindo conteúdo do site sem pagamento
  • Ignorou o aviso de "proibição de extração" do site, forçando o uso dos recursos do servidor
  • A empresa afetada tentou se defender, mas falhou, e os dados de conteúdo ainda foram capturados

O responsável pela empresa expressou sua insatisfação nas redes sociais:

Ei, Anthropic, sei que vocês estão sedentos por dados. Claude é realmente inteligente! Mas sabe de uma coisa, isso não é! Legal! Oh!

Muitos internautas expressaram raiva sobre isso, com alguns sugerindo usar "roubar" em vez de "sem pagamento" para descrever o comportamento da Anthropic.

Detalhes do incidente:

  • A empresa afetada é a iFixit, um site americano que fornece guias de reparo de produtos eletrônicos
  • O programa de rastreamento do Claude, ClaudeBot, enviou milhares de solicitações por minuto em poucas horas
  • Cerca de 1 milhão de acessos em um dia, baixando 10 TB de arquivos, totalizando 73 TB em maio
  • O site iFixit declara proibição de cópia não autorizada de conteúdo para treinamento de IA
  • O CEO da iFixit afirmou que o ClaudeBot extraiu todos os dados sem permissão, sobrecarregando os servidores
  • A iFixit modificou seu arquivo robots.txt para bloquear o rastreador da Anthropic

A Anthropic respondeu dizendo que desativou o antigo rastreador, mas não respondeu se o ClaudeBot respeita o robots.txt.

Esta não é a primeira vez que empresas de IA extraem conteúdo de sites em larga escala:

  • Em abril deste ano, o fórum Linux Mint travou devido à extração pelo ClaudeBot
  • Alguns sugeriram plantar informações rastreáveis nos sites para detectar roubo de dados
  • A iFixit descobriu que suas informações foram extraídas não só pelo Claude, mas também pela OpenAI
  • Várias empresas de IA foram acusadas de ignorar as configurações do robots.txt e forçar a extração

Algumas pessoas estão pedindo aos criadores que movam o conteúdo para áreas pagas para evitar extração ilimitada. No entanto, resta saber se essa abordagem será eficaz.