OpenAI команда по сбору данных вызывает споры: обход запретов вызывает недовольство пользователей

Народ в ярости: Воры!

Команда Claude недавно вызвала споры из-за масштабного сканирования содержимого веб-сайта одной компании. Ситуация следующая:

  • 1 миллион обращений к серверам компании за 24 часа, бесплатное сканирование содержимого сайта
  • Игнорирование объявления сайта "сканирование запрещено", принудительное использование ресурсов сервера
  • Пострадавшая компания пыталась защититься, но безуспешно, данные все равно были собраны

Руководитель компании выразил недовольство в социальных сетях:

Эй, Anthropic, я знаю, что вы жаждете данных. Claude действительно умен! Но знаете что, это совсем не! круто! о!

Многие пользователи сети выразили гнев по этому поводу, некоторые предложили использовать слово "украсть" вместо "бесплатно" для описания действий Anthropic.

Подробности инцидента:

  • Пострадавшая компания - iFixit, американский сайт, предоставляющий руководства по ремонту электроники
  • Программа-паук Claude, ClaudeBot, отправляла тысячи запросов в минуту в течение нескольких часов
  • Около 1 миллиона посещений за день, загружено 10 ТБ файлов, всего 73 ТБ в мае
  • На сайте iFixit заявлено о запрете копирования контента без разрешения для обучения ИИ
  • CEO iFixit заявил, что ClaudeBot сканировал все данные без разрешения, заполнив сервер
  • iFixit изменил файл robots.txt, чтобы заблокировать паук Anthropic

Anthropic ответил, что отключил старого паука, но не ответил, соблюдает ли ClaudeBot robots.txt.

Это не первый случай масштабного сканирования сайтов компаниями ИИ:

  • В апреле этого года форум Linux Mint рухнул из-за сканирования ClaudeBot
  • Некоторые предлагают внедрять на сайты отслеживаемую информацию для обнаружения кражи данных
  • iFixit обнаружил, что их информация была не только отсканирована Claude, но и получена OpenAI
  • Несколько компаний ИИ обвиняются в игнорировании настроек robots.txt и принудительном сканировании

Некоторые призывают авторов перенести контент в платные разделы, чтобы предотвратить неограниченный сбор. Однако эффективность этого подхода еще предстоит проверить.