L'équipe d'OpenAI soulève la controverse avec sa collecte de données : le contournement des interdictions provoque le mécontentement des utilisateurs

L'équipe de Claude a récemment suscité la controverse en raison d'un scraping à grande échelle du contenu du site Web d'une entreprise. La situation est la suivante :

Accès au serveur de l'entreprise 1 million de fois en 24 heures, scraping du contenu du site sans payer
Ignoré l'avis "interdiction de scraping" du site, forcé l'utilisation des ressources du serveur
L'entreprise affectée a tenté de se défendre mais a échoué, les données de contenu ont quand même été capturées

Le responsable de l'entreprise a exprimé son mécontentement sur les médias sociaux :

Hé, Anthropic, je sais que vous avez soif de données. Claude est vraiment intelligent ! Mais vous savez quoi, ce n'est pas du tout cool ! Oh !

De nombreux internautes ont exprimé leur colère à ce sujet, certains suggérant d'utiliser "voler" plutôt que "sans payer" pour décrire le comportement d'Anthropic.

Détails de l'incident :

L'entreprise affectée est iFixit, un site Web américain fournissant des guides de réparation pour produits électroniques
Le programme de scraping de Claude, ClaudeBot, a envoyé des milliers de requêtes par minute en quelques heures
Environ 1 million de visites en une journée, téléchargement de 10 To de fichiers, 73 To au total en mai
Le site iFixit déclare interdire la copie non autorisée de contenu pour l'entraînement d'IA
Le PDG d'iFixit affirme que ClaudeBot a scrapé toutes les données sans autorisation, saturant le serveur
iFixit a modifié son fichier robots.txt pour bloquer le robot d'Anthropic

Anthropic a répondu avoir désactivé l'ancien robot, mais n'a pas précisé si ClaudeBot respecte le robots.txt.

Ce n'est pas la première fois que des entreprises d'IA scrapent massivement des sites Web :

En avril, le forum Linux Mint s'est effondré suite au scraping de ClaudeBot
Certains suggèrent d'implanter des informations traçables sur les sites pour détecter le vol de données
iFixit a découvert que ses informations ont été scrapées non seulement par Claude, mais aussi obtenues par OpenAI
Plusieurs entreprises d'IA sont accusées d'ignorer les paramètres robots.txt et de scraper de force

Certains appellent les créateurs à déplacer leur contenu vers des zones payantes pour empêcher le scraping illimité. Reste à voir si cette approche sera efficace.

L'équipe d'OpenAI soulève la controverse avec sa collecte de données : le contournement des interdictions provoque le mécontentement des utilisateurs

Colère populaire : Voleurs !