英伟达AI数据采集争议:官方否认违规指控

相当于一个人一生中所接收的视觉信息量。

根据泄露的内部文件,NVIDIA据报道正在开发一个代号为Cosmos的视频AI模型,由研究副总裁刘明煜领导。该项目旨在构建一个最先进的基础视频模型,结合光传输、物理和智能模拟,用于各种下游应用。

泄露的电子邮件显示,NVIDIA的目标是创建一个"视频数据工厂",每天可以生产相当于人类一生视觉体验的训练数据。据称,该公司正在从YouTube和Netflix等来源大量抓取未经授权的数据来训练模型。

据说NVIDIA员工使用yt-dlp等工具下载视频,使用虚拟机来避免被检测。当被要求置评时,NVIDIA声称他们的做法是合法的,并符合版权法,称版权不保护可以从其他来源自由学习的事实、想法或信息。

然而,YouTube的CEO此前曾表示,使用他们的视频来训练像OpenAI的Sora这样的AI模型将违反他们的服务条款。Netflix也表示他们与NVIDIA没有内容提取协议,他们的条款禁止抓取。

与此同时,YouTube创作者正在寻求对OpenAI提起集体诉讼,指控其在未经许可或补偿的情况下使用数百万YouTube视频来训练AI模型。

虽然有争议,但来自原始互联网来源的高质量训练数据已被证明对AI模型开发很有价值。最近的研究表明,使用早期互联网数据训练的模型可能比使用后期AI生成数据的模型具有优势。

为AI训练抓取在线数据的道德和合法性仍然是业界一个有争议的问题。