L'équipe d'OpenAI soulève la controverse avec sa collecte de données : le contournement des interdictions provoque le mécontentement des utilisateurs

Colère populaire : Voleurs !

L'équipe de Claude a récemment suscité la controverse en raison d'un scraping à grande échelle du contenu du site Web d'une entreprise. La situation est la suivante :

  • Accès au serveur de l'entreprise 1 million de fois en 24 heures, scraping du contenu du site sans payer
  • Ignoré l'avis "interdiction de scraping" du site, forcé l'utilisation des ressources du serveur
  • L'entreprise affectée a tenté de se défendre mais a échoué, les données de contenu ont quand même été capturées

Le responsable de l'entreprise a exprimé son mécontentement sur les médias sociaux :

Hé, Anthropic, je sais que vous avez soif de données. Claude est vraiment intelligent ! Mais vous savez quoi, ce n'est pas du tout cool ! Oh !

De nombreux internautes ont exprimé leur colère à ce sujet, certains suggérant d'utiliser "voler" plutôt que "sans payer" pour décrire le comportement d'Anthropic.

Détails de l'incident :

  • L'entreprise affectée est iFixit, un site Web américain fournissant des guides de réparation pour produits électroniques
  • Le programme de scraping de Claude, ClaudeBot, a envoyé des milliers de requêtes par minute en quelques heures
  • Environ 1 million de visites en une journée, téléchargement de 10 To de fichiers, 73 To au total en mai
  • Le site iFixit déclare interdire la copie non autorisée de contenu pour l'entraînement d'IA
  • Le PDG d'iFixit affirme que ClaudeBot a scrapé toutes les données sans autorisation, saturant le serveur
  • iFixit a modifié son fichier robots.txt pour bloquer le robot d'Anthropic

Anthropic a répondu avoir désactivé l'ancien robot, mais n'a pas précisé si ClaudeBot respecte le robots.txt.

Ce n'est pas la première fois que des entreprises d'IA scrapent massivement des sites Web :

  • En avril, le forum Linux Mint s'est effondré suite au scraping de ClaudeBot
  • Certains suggèrent d'implanter des informations traçables sur les sites pour détecter le vol de données
  • iFixit a découvert que ses informations ont été scrapées non seulement par Claude, mais aussi obtenues par OpenAI
  • Plusieurs entreprises d'IA sont accusées d'ignorer les paramètres robots.txt et de scraper de force

Certains appellent les créateurs à déplacer leur contenu vers des zones payantes pour empêcher le scraping illimité. Reste à voir si cette approche sera efficace.