Controverse sur la collecte de données IA de NVIDIA : l'entreprise nie les accusations d'irrégularités

L'équivalent de la quantité d'informations visuelles qu'une personne reçoit au cours de sa vie entière.

Selon des documents internes divulgués, NVIDIA développerait un modèle d'IA vidéo nommé Cosmos, dirigé par le vice-président de la recherche Ming-Yu Liu. Le projet vise à construire un modèle vidéo fondamental de pointe combinant le transport de la lumière, la physique et la simulation de l'intelligence pour diverses applications en aval.

Des e-mails divulgués révèlent l'objectif de NVIDIA de créer une "usine de données vidéo" capable de produire quotidiennement des données d'entraînement équivalentes à une vie d'expériences visuelles humaines. L'entreprise extrairait prétendument de grandes quantités de données non autorisées de sources comme YouTube et Netflix pour entraîner le modèle.

Les employés de NVIDIA utiliseraient des outils comme yt-dlp pour télécharger des vidéos, en utilisant des machines virtuelles pour éviter la détection. Interrogée, NVIDIA a affirmé que ses pratiques sont légales et conformes au droit d'auteur, déclarant que le droit d'auteur ne protège pas les faits, idées ou informations pouvant être librement appris d'autres sources.

Cependant, le PDG de YouTube a précédemment déclaré que l'utilisation de leurs vidéos pour entraîner des modèles d'IA comme Sora d'OpenAI violerait leurs conditions d'utilisation. Netflix a également déclaré n'avoir aucun accord d'extraction de contenu avec NVIDIA et que leurs conditions interdisent le scraping.

Cela survient alors que des créateurs YouTube cherchent à intenter un recours collectif contre OpenAI pour avoir prétendument utilisé des millions de vidéos YouTube pour entraîner des modèles d'IA sans autorisation ni compensation.

Bien que controversées, les données d'entraînement de haute qualité provenant de sources internet originales se sont avérées précieuses pour le développement de modèles d'IA. Des recherches récentes suggèrent que les modèles entraînés sur des données internet anciennes pourraient avoir des avantages par rapport à ceux utilisant des données générées ultérieurement par l'IA.

L'éthique et la légalité de l'extraction de données en ligne pour l'entraînement de l'IA restent un sujet de controverse dans l'industrie.