英偉達AI數據採集爭議：官方否認違規指控

根據洩露的內部文件，NVIDIA 據報正在開發一個代號為 Cosmos 的視頻 AI 模型，由研究副總裁 Ming-Yu Liu 領導。該項目旨在建立一個結合光傳輸、物理和智能模擬的最先進基礎視頻模型，用於各種下游應用。

洩露的電子郵件揭示了 NVIDIA 的目標是創建一個"視頻數據工廠"，每天可以生產相當於人類一生視覺經驗的訓練數據。該公司據稱正在從 YouTube 和 Netflix 等來源大量抓取未經授權的數據來訓練模型。

NVIDIA 員工據說使用 yt-dlp 等工具下載視頻，並使用虛擬機來避免被檢測。當被要求置評時，NVIDIA 聲稱他們的做法是合法的，並符合版權法，表示版權不保護可以從其他來源自由學習的事實、想法或信息。

然而，YouTube 的 CEO 之前曾表示，使用他們的視頻來訓練像 OpenAI 的 Sora 這樣的 AI 模型將違反他們的服務條款。Netflix 也表示他們與 NVIDIA 沒有內容提取協議，他們的條款禁止抓取。

這發生之際，YouTube 創作者正在尋求對 OpenAI 提起集體訴訟，指控其未經許可或補償就使用數百萬 YouTube 視頻來訓練 AI 模型。

雖然有爭議，但來自原始互聯網來源的高質量訓練數據已被證明對 AI 模型開發很有價值。最近的研究表明，使用早期互聯網數據訓練的模型可能比使用後期 AI 生成數據的模型具有優勢。

為 AI 訓練抓取在線數據的倫理和合法性仍然是業界一個有爭議的問題。

相當於一個人終其一生所接收的視覺資訊量。