L'équipe de Claude a récemment suscité la controverse en raison d'un scraping à grande échelle du contenu du site Web d'une entreprise. La situation est la suivante :
- Accès au serveur de l'entreprise 1 million de fois en 24 heures, scraping du contenu du site sans payer
- Ignoré l'avis "interdiction de scraping" du site, forcé l'utilisation des ressources du serveur
- L'entreprise affectée a tenté de se défendre mais a échoué, les données de contenu ont quand même été capturées
Le responsable de l'entreprise a exprimé son mécontentement sur les médias sociaux :
Hé, Anthropic, je sais que vous avez soif de données. Claude est vraiment intelligent ! Mais vous savez quoi, ce n'est pas du tout cool ! Oh !
De nombreux internautes ont exprimé leur colère à ce sujet, certains suggérant d'utiliser "voler" plutôt que "sans payer" pour décrire le comportement d'Anthropic.
Détails de l'incident :
- L'entreprise affectée est iFixit, un site Web américain fournissant des guides de réparation pour produits électroniques
- Le programme de scraping de Claude, ClaudeBot, a envoyé des milliers de requêtes par minute en quelques heures
- Environ 1 million de visites en une journée, téléchargement de 10 To de fichiers, 73 To au total en mai
- Le site iFixit déclare interdire la copie non autorisée de contenu pour l'entraînement d'IA
- Le PDG d'iFixit affirme que ClaudeBot a scrapé toutes les données sans autorisation, saturant le serveur
- iFixit a modifié son fichier robots.txt pour bloquer le robot d'Anthropic
Anthropic a répondu avoir désactivé l'ancien robot, mais n'a pas précisé si ClaudeBot respecte le robots.txt.
Ce n'est pas la première fois que des entreprises d'IA scrapent massivement des sites Web :
- En avril, le forum Linux Mint s'est effondré suite au scraping de ClaudeBot
- Certains suggèrent d'implanter des informations traçables sur les sites pour détecter le vol de données
- iFixit a découvert que ses informations ont été scrapées non seulement par Claude, mais aussi obtenues par OpenAI
- Plusieurs entreprises d'IA sont accusées d'ignorer les paramètres robots.txt et de scraper de force
Certains appellent les créateurs à déplacer leur contenu vers des zones payantes pour empêcher le scraping illimité. Reste à voir si cette approche sera efficace.