AI-Datenmangel verschärft sich: MIT-Bericht weist auf abnehmende öffentlich zugängliche Webdaten hin

01 Forschungsmethoden

Im Allgemeinen gibt es zwei Arten von Maßnahmen zur Einschränkung von Web-Crawlern:

Robots Exclusion Protocol (REP)
Nutzungsbedingungen der Website (Terms of Service, ToS)

Die Entstehung des REP geht auf das Jahr 1995 zurück, noch vor dem KI-Zeitalter. Dieses Protokoll erfordert die Einbindung von robots.txt in den Quellcode der Website, um die Aktivitäten von Netzwerk-Crawlern und anderen Bots zu verwalten, wie z.B. User Agents oder spezifische Dateizugriffsrechte.

Man kann die Wirksamkeit von robots.txt mit einem "Verhaltenskodex"-Schild vergleichen, das in einem Fitnessstudio, einer Bar oder einem Gemeindezentrum aufgehängt ist. Es hat an sich keine zwingende Wirkung; gute Bots befolgen die Richtlinien, aber schlechte Bots können sie einfach ignorieren.

Die Studie untersuchte Websites aus 3 Datensätzen, wie in Tabelle 1 gezeigt. Dies sind einflussreiche Open-Source-Datensätze mit 100k bis 1M+ Downloads.

Für jede Datenquelle wurden die Top 2k Websitedomains nach Token-Gesamtmenge zusammengeführt, was insgesamt 3,95k Websitedomains ergab, bezeichnet als HEADAll. Die nur aus dem C4-Datensatz stammenden wurden als HEADC4 bezeichnet und können als die umfangreichsten, am häufigsten gepflegten und kritischsten KI-Trainingsdatenquellen betrachtet werden.

Es wurden zufällig 10k Domains ausgewählt (RANDOM10k), von denen wiederum 2k zufällig für manuelle Annotation ausgewählt wurden (RANDOM2k). RANDOM10k wurde nur aus der Schnittmenge der Domains der drei Datensätze gezogen, was bedeutet, dass es sich wahrscheinlich um qualitativ hochwertigere Webseiten handelt.

Wie in Tabelle 2 gezeigt, umfasste die manuelle Annotation von RANDOM2k viele Aspekte, einschließlich verschiedener Inhaltsattribute und Zugriffsberechtigungen. Für einen zeitlichen Längsschnittvergleich bezogen sich die Autoren auf historische Webdaten aus der Wayback Machine.

Die für die Studie verwendeten manuell annotierten Inhalte wurden veröffentlicht, um zukünftige Forschungsreplikationen zu erleichtern.

02 Ergebnisübersicht

Zunehmende Datenbeschränkungen

Neben der Sammlung historischer Daten verwendete die Studie die SARIMA-Methode (Seasonal Autoregressive Integrated Moving Average) zur Vorhersage zukünftiger Trends.

In Bezug auf robots.txt-Beschränkungen stieg die Anzahl der Websites mit vollständigen Einschränkungen nach dem Erscheinen von GPTBot (Mitte 2023) sprunghaft an, während die Zunahme der Beschränkungen in den Nutzungsbedingungen stabiler und ausgewogener war und sich mehr auf kommerzielle Nutzung konzentrierte.

Laut den SARIMA-Modellprognosen wird dieser Trend zunehmender Beschränkungen sowohl bei robots.txt als auch bei den Nutzungsbedingungen anhalten.

Die folgende Abbildung zeigt den Anteil der Websites, die bestimmte Organisationen oder Unternehmen einschränken. OpenAI-Bots führen mit Abstand, gefolgt von Anthropic, Google und den Crawlern des Open-Source-Datensatzes Common Crawl.

Aus der Perspektive der Token-Anzahl lässt sich ein ähnlicher Trend beobachten.

Inkonsistente und unwirksame KI-Genehmigungen

Es gibt erhebliche Unterschiede in den Genehmigungsgraden für KI-Agenten verschiedener Organisationen auf den verschiedenen Websites.

OpenAI, Anthropic und Common Crawl haben die höchsten Einschränkungsanteile, alle über 80%, während Website-Besitzer gegenüber Crawlern aus Nicht-KI-Bereichen wie Internet Archive oder Google-Suche in der Regel toleranter und offener sind.

Robots.txt wird hauptsächlich verwendet, um das Verhalten von Web-Crawlern zu regulieren, während die Nutzungsbedingungen einer Website rechtliche Vereinbarungen mit den Nutzern sind. Ersteres ist mechanischer, strukturierter, aber besser durchsetzbar, letzteres kann reichhaltigere und nuanciertere Strategien ausdrücken.

Die beiden sollten sich eigentlich ergänzen, aber in der Praxis erfasst robots.txt oft nicht die Absichten der Nutzungsbedingungen und hat sogar oft widersprüchliche Bedeutungen (Abbildung 3).

Diskrepanz zwischen realen Anwendungsfällen und Webdaten

Die Studie verglich die Verteilung der Webinhalte mit der Fragenverteilung im WildChat-Datensatz, einer kürzlich gesammelten Sammlung von ChatGPT-Benutzerdaten mit etwa 1M Konversationen.

Wie in Abbildung 4 zu sehen ist, sind die Unterschiede beträchtlich. Nachrichten und Enzyklopädien, die in den Webdaten den größten Anteil ausmachen, sind in den Benutzerdaten fast vernachlässigbar, während die von Benutzern häufig verwendete fiktive Schreibfunktion in den Webdaten selten zu finden ist.