Противоречия вокруг сбора данных для ИИ NVIDIA: компания отрицает обвинения в нарушениях

Согласно утечке внутренних документов, NVIDIA, как сообщается, разрабатывает модель видео-ИИ под кодовым названием Cosmos под руководством вице-президента по исследованиям Мин-Ю Лю. Проект направлен на создание современной фундаментальной видеомодели, сочетающей перенос света, физику и моделирование интеллекта для различных последующих приложений.

Утечка электронных писем раскрывает цель NVIDIA создать "фабрику видеоданных", способную ежедневно производить обучающие данные, эквивалентные визуальному опыту человека за всю жизнь. Компания якобы собирает большое количество несанкционированных данных из таких источников, как YouTube и Netflix, для обучения модели.

Сообщается, что сотрудники NVIDIA используют такие инструменты, как yt-dlp, для загрузки видео, используя виртуальные машины для избежания обнаружения. Когда NVIDIA попросили прокомментировать, компания заявила, что их практики законны и соответствуют авторскому праву, утверждая, что авторское право не защищает факты, идеи или информацию, которые можно свободно узнать из других источников.

Однако генеральный директор YouTube ранее заявлял, что использование их видео для обучения моделей ИИ, таких как Sora от OpenAI, нарушило бы их условия использования. Netflix также заявил, что у них нет соглашения об извлечении контента с NVIDIA, и их условия запрещают скрапинг.

Это происходит на фоне того, что создатели контента на YouTube добиваются коллективного иска против OpenAI за предполагаемое использование миллионов видео с YouTube для обучения моделей ИИ без разрешения или компенсации.

Хотя это и вызывает споры, высококачественные обучающие данные из оригинальных интернет-источников оказались ценными для разработки моделей ИИ. Недавние исследования предполагают, что модели, обученные на ранних интернет-данных, могут иметь преимущества перед теми, которые используют более поздние данные, сгенерированные ИИ.

Этика и законность скрапинга онлайн-данных для обучения ИИ остается спорным вопросом в отрасли.

Противоречия вокруг сбора данных для ИИ NVIDIA: компания отрицает обвинения в нарушениях

Равносильно объему визуальной информации, которую человек получает за всю свою жизнь.