OpenAI-Team gerät wegen Datenerfassung in Kontroversen: Umgehung von Verboten führt zu Unzufriedenheit der Nutzer

Volksempörung: Diebe!

Das Claude-Team hat kürzlich für Kontroversen gesorgt, indem es massenhaft Inhalte von der Website eines Unternehmens gecrawlt hat. Die Details sind wie folgt:

  • 1 Million Zugriffe auf den Server des Unternehmens innerhalb von 24 Stunden, um kostenlos Inhalte zu crawlen
  • Ignorieren der "Crawling verboten"-Ankündigung der Website und erzwungene Nutzung von Serverressourcen
  • Das betroffene Unternehmen versuchte sich zu verteidigen, scheiterte aber, und die Inhaltsdaten wurden trotzdem extrahiert

Der Verantwortliche des Unternehmens äußerte seine Unzufriedenheit in sozialen Medien:

Hey Anthropic, ich weiß, ihr seid hungrig nach Daten. Claude ist wirklich schlau! Aber wisst ihr was, das ist überhaupt nicht! Cool! Oh!

Viele Internetnutzer zeigten sich darüber verärgert, einige schlugen vor, Anthropics Verhalten als "Diebstahl" statt "kostenlos" zu bezeichnen.

Details des Vorfalls:

  • Das betroffene Unternehmen ist iFixit, eine US-amerikanische Website, die Reparaturanleitungen für elektronische Geräte anbietet
  • Claudes Crawler-Programm ClaudeBot sendete innerhalb weniger Stunden Tausende von Anfragen pro Minute
  • Etwa 1 Million Zugriffe und 10 TB heruntergeladene Dateien an einem Tag, insgesamt 73 TB im Mai
  • iFixit erklärt, dass das Kopieren von Inhalten für KI-Training ohne Erlaubnis verboten ist
  • iFixit CEO sagt, ClaudeBot habe ohne Erlaubnis alle Daten gecrawlt und den Server ausgelastet
  • iFixit hat seine robots.txt-Datei geändert, um Anthropic-Crawler zu blockieren

Anthropic antwortete, dass sie alte Crawler deaktiviert hätten, äußerte sich aber nicht dazu, ob ClaudeBot robots.txt respektiert.

Dies ist nicht das erste Mal, dass KI-Unternehmen massenhaft Website-Inhalte crawlen:

  • Im April führte ClaudeBot zum Absturz des Linux Mint Forums
  • Es wurde vorgeschlagen, verfolgbare Informationen in Websites einzubetten, um Datendiebstahl zu erkennen
  • iFixit stellte fest, dass ihre Informationen nicht nur von Claude, sondern auch von OpenAI erfasst wurden
  • Mehrere KI-Unternehmen wurden beschuldigt, robots.txt-Einstellungen zu ignorieren und zwanghaft zu crawlen

Einige fordern Urheber auf, Inhalte in kostenpflichtige Bereiche zu verlagern, um unbegrenztes Crawling zu verhindern. Ob dies effektiv sein wird, bleibt abzuwarten.