エヌビディアAIデータ収集の論争:公式が違法行為の疑惑を否定

一生涯で受け取る視覚情報量に匹敵する。

NVIDIAが内部で「Cosmos」というコードネームのビデオAIモデルを開発中であると報じられています。研究担当副社長のミン・ユー・リウ氏が率いるこのプロジェクトは、光の伝播、物理学、知能シミュレーションを組み合わせた最先端の基盤的ビデオモデルの構築を目指しています。

リークされた電子メールによると、NVIDIAは人間の一生分の視覚体験に相当する学習データを毎日生成できる「ビデオデータファクトリー」の創造を目標としているとのことです。同社は、モデルの学習のためにYouTubeやNetflixなどから大量の無許可データを収集していると言われています。

NVIDIAの従業員は、yt-dlpのようなツールを使用してビデオをダウンロードし、仮想マシンを使用して検出を回避しているとされています。コメントを求められたNVIDIAは、自社の慣行は合法であり著作権法に準拠していると主張し、著作権は事実、アイデア、他のソースから自由に学習できる情報を保護するものではないと述べています。

しかし、YouTubeのCEOは以前、OpenAIのSoraのようなAIモデルの学習にYouTubeの動画を使用することは利用規約違反になると述べています。Netflixも、NVIDIAとのコンテンツ抽出契約はなく、利用規約ではスクレイピングを禁止していると述べています。

これは、YouTubeのクリエイターたちが、許可や報酬なしに何百万ものYouTube動画をAIモデルの学習に使用したとしてOpenAIに対してクラスアクション訴訟を起こそうとしている中で起きています。

議論の余地はありますが、オリジナルのインターネットソースからの高品質な学習データは、AIモデル開発に価値があることが証明されています。最近の研究では、初期のインターネットデータで学習したモデルは、後のAI生成データを使用したモデルよりも優位性がある可能性が示唆されています。

AIの学習のためにオンラインデータをスクレイピングすることの倫理性と合法性は、業界で依然として議論の的となっています。