Controversia sobre la recolección de datos de IA de NVIDIA: la compañía niega acusaciones de irregularidades

Equivalente a la cantidad de información visual que una persona recibe en toda su vida.

Según documentos internos filtrados, se informa que NVIDIA está desarrollando un modelo de IA de video con el nombre en clave Cosmos, dirigido por el vicepresidente de investigación Ming-Yu Liu. El proyecto tiene como objetivo construir un modelo de video fundamental de vanguardia que combine transporte de luz, física y simulación de inteligencia para diversas aplicaciones posteriores.

Correos electrónicos filtrados revelan el objetivo de NVIDIA de crear una "fábrica de datos de video" que pueda producir diariamente datos de entrenamiento equivalentes a las experiencias visuales de toda la vida de un ser humano. Supuestamente, la empresa está extrayendo grandes cantidades de datos no autorizados de fuentes como YouTube y Netflix para entrenar el modelo.

Se dice que los empleados de NVIDIA utilizan herramientas como yt-dlp para descargar videos, usando máquinas virtuales para evitar la detección. Cuando se les pidió un comentario, NVIDIA afirmó que sus prácticas son legales y cumplen con las leyes de derechos de autor, declarando que los derechos de autor no protegen hechos, ideas o información que se pueden aprender libremente de otras fuentes.

Sin embargo, el CEO de YouTube ha declarado anteriormente que usar sus videos para entrenar modelos de IA como Sora de OpenAI violaría sus términos de servicio. Netflix también dijo que no tiene un acuerdo de extracción de contenido con NVIDIA y sus términos prohíben el scraping.

Esto ocurre mientras los creadores de YouTube buscan una demanda colectiva contra OpenAI por supuestamente usar millones de videos de YouTube para entrenar modelos de IA sin permiso ni compensación.

Aunque controvertido, los datos de entrenamiento de alta calidad de fuentes originales de internet han demostrado ser valiosos para el desarrollo de modelos de IA. Investigaciones recientes sugieren que los modelos entrenados con datos de internet tempranos pueden tener ventajas sobre aquellos que utilizan datos generados posteriormente por IA.

La ética y legalidad de extraer datos en línea para el entrenamiento de IA sigue siendo un tema polémico en la industria.