AI аудио большие модели: Раскрытие технологий, стоящих за глобальным трендом

Stable Audio Open: инновационная модель с открытым исходным кодом, способная преобразовывать текст в высококачественное аудио.

Три ключевые архитектуры поддерживают свободную генерацию высококачественного стерео аудио 44,1 кГц короткой длительности

Stable Audio Open представляет модель преобразования текста в аудио с тремя основными архитектурами:

  1. Автоэнкодер: Сжимает данные волновой формы до управляемой длины последовательности
  2. Текстовое встраивание на основе T5
  3. Трансформерная модель диффузии (DiT): Работает в латентном пространстве автоэнкодера

Как вариант Stable Audio 2, Stable Audio Open внесла изменения в использование обучающих данных и некоторые аспекты архитектуры. Она использует совершенно другой набор данных и применяет T5 вместо CLAP (Contrastive Language-Audio Pretraining).

Как открытая бесплатная модель, Stable Audio Open не может генерировать связные полные треки и не оптимизирована для полных песен, мелодий или вокала.

Stability AI заявляет, что Stable Audio Open фокусируется на создании аудио демо и звуковых эффектов, способна свободно генерировать высококачественное стерео аудио 44,1 кГц длительностью до 47 секунд. После профессионального обучения модель хорошо подходит для создания барабанных битов, инструментальных лупов, фоновых звуков, фоли-записей и других аудио сэмплов для музыкального производства и звукового дизайна.

Ключевым преимуществом этой версии с открытым исходным кодом является то, что пользователи могут дообучать модель на основе своих собственных аудио данных.

Процесс обучения подчеркивает защиту авторских прав

На фоне быстрого развития генеративного ИИ дебаты об использовании ИИ в музыкальной индустрии усиливаются, особенно в отношении вопросов авторского права.

Stability AI заявляет, что для уважения авторских прав создателей Stable Audio Open использует наборы данных из Freesound и Free Music Archive (FMA), причем все используемые записи опубликованы под лицензиями Creative Commons (CC).

Чтобы гарантировать отсутствие защищенных авторским правом материалов, Stability AI утверждает, что использует аудио-тегер для идентификации музыкальных сэмплов в Freesound, отправляя идентифицированные сэмплы в компанию по обнаружению контента Audible Magic для обеспечения удаления потенциально защищенной авторским правом музыки из набора данных.

Заключение: Открытая, бесплатная модель делает преобразование текста в аудио более доступным

Запуск Stable Audio Open демонстрирует инновации и прогресс Stability AI в моделях преобразования текста в аудио. Хотя модель имеет ограничения в длительности аудио и генерации связности, ее преимущества очевидны. Она может бесплатно генерировать высококачественное стерео аудио 44,1 кГц и работать на потребительских GPU, снижая барьер для использования технологии преобразования текста в аудио.

Между тем, Stable Audio Open устанавливает новый стандарт защиты авторских прав, открывая технологию генерации аудио. В будущем, по мере продолжения технологического прогресса и улучшения этических норм, ожидается, что Stable Audio Open реализует свой потенциал в большем количестве сценариев применения, способствуя развитию и популяризации технологии генерации аудио.

В настоящее время веса модели Stable Audio Open доступны на платформе машинного обучения Hugging Face. Stability AI призывает звукорежиссеров, музыкантов, разработчиков и всех, кто интересуется аудио, исследовать возможности модели и предоставлять обратную связь.