英伟达AI数据采集争议：官方否认违规指控

根据泄露的内部文件，NVIDIA据报道正在开发一个代号为Cosmos的视频AI模型，由研究副总裁刘明煜领导。该项目旨在构建一个最先进的基础视频模型，结合光传输、物理和智能模拟，用于各种下游应用。

泄露的电子邮件显示，NVIDIA的目标是创建一个"视频数据工厂"，每天可以生产相当于人类一生视觉体验的训练数据。据称，该公司正在从YouTube和Netflix等来源大量抓取未经授权的数据来训练模型。

据说NVIDIA员工使用yt-dlp等工具下载视频，使用虚拟机来避免被检测。当被要求置评时，NVIDIA声称他们的做法是合法的，并符合版权法，称版权不保护可以从其他来源自由学习的事实、想法或信息。

然而，YouTube的CEO此前曾表示，使用他们的视频来训练像OpenAI的Sora这样的AI模型将违反他们的服务条款。Netflix也表示他们与NVIDIA没有内容提取协议，他们的条款禁止抓取。

与此同时，YouTube创作者正在寻求对OpenAI提起集体诉讼，指控其在未经许可或补偿的情况下使用数百万YouTube视频来训练AI模型。

虽然有争议，但来自原始互联网来源的高质量训练数据已被证明对AI模型开发很有价值。最近的研究表明，使用早期互联网数据训练的模型可能比使用后期AI生成数据的模型具有优势。

为AI训练抓取在线数据的道德和合法性仍然是业界一个有争议的问题。

相当于一个人一生中所接收的视觉信息量。