Nvidia KI-Datenerfassungskontroverse: Offizielles Dementi der Vorwürfe von Fehlverhalten

Dies entspricht der Menge an visuellen Informationen, die ein Mensch im Laufe seines gesamten Lebens aufnimmt.

Laut durchgesickerten internen Dokumenten entwickelt NVIDIA angeblich ein Video-KI-Modell mit dem Codenamen Cosmos, geleitet von Forschungs-VP Ming-Yu Liu. Das Projekt zielt darauf ab, ein hochmodernes grundlegendes Videomodell zu entwickeln, das Lichttransport, Physik und Intelligenzsimulation für verschiedene nachgelagerte Anwendungen kombiniert.

Durchgesickerte E-Mails enthüllen NVIDIAs Ziel, eine "Video-Datenfabrik" zu schaffen, die täglich Trainingsdaten produzieren kann, die dem visuellen Erfahrungsschatz eines menschlichen Lebens entsprechen. Das Unternehmen soll angeblich große Mengen nicht autorisierter Daten aus Quellen wie YouTube und Netflix abgreifen, um das Modell zu trainieren.

NVIDIA-Mitarbeiter sollen Tools wie yt-dlp verwenden, um Videos herunterzuladen, und virtuelle Maschinen nutzen, um eine Erkennung zu vermeiden. Auf Nachfrage behauptete NVIDIA, ihre Praktiken seien legal und entsprächen dem Urheberrecht, und erklärte, dass das Urheberrecht keine Fakten, Ideen oder Informationen schütze, die frei aus anderen Quellen gelernt werden können.

Der CEO von YouTube hat jedoch zuvor erklärt, dass die Verwendung ihrer Videos zum Training von KI-Modellen wie OpenAIs Sora gegen ihre Nutzungsbedingungen verstoßen würde. Netflix sagte ebenfalls, sie hätten keine Vereinbarung zur Inhaltsextraktion mit NVIDIA und ihre Bedingungen verbieten das Scraping.

Dies geschieht, während YouTube-Ersteller eine Sammelklage gegen OpenAI anstreben, weil angeblich Millionen von YouTube-Videos ohne Erlaubnis oder Vergütung zum Training von KI-Modellen verwendet wurden.

Obwohl umstritten, haben sich hochwertige Trainingsdaten aus originalen Internetquellen als wertvoll für die Entwicklung von KI-Modellen erwiesen. Jüngste Forschungen deuten darauf hin, dass Modelle, die mit frühen Internetdaten trainiert wurden, möglicherweise Vorteile gegenüber solchen haben, die spätere KI-generierte Daten verwenden.

Die Ethik und Legalität des Scrapings von Online-Daten für KI-Training bleibt ein umstrittenes Thema in der Branche.