高品質ステレオ短時間音声の44.1kHz自由生成を支える3つの主要アーキテクチャ
Stable Audio Openは、3つの主要なアーキテクチャを持つテキスト音声変換モデルを導入しています:
- オートエンコーダー:波形データを管理可能なシーケンス長に圧縮
- T5ベースのテキスト埋め込み
- トランスフォーマーベースの拡散モデル(DiT):オートエンコーダーの潜在空間で動作
Stable Audio 2の変種として、Stable Audio Openは訓練データの採用と一部のアーキテクチャ面で調整を行いました。完全に異なるデータセットを使用し、CLAP(対照的言語-音声事前訓練)の代わりにT5を採用しています。
オープンソースの無料モデルとして、Stable Audio Openは一貫性のある完全なトラックを生成することはできず、フルソング、メロディ、ボーカルに最適化されていません。
Stability AIによると、Stable Audio Openはオーディオデモと音響効果の作成に焦点を当てており、最大47秒間の44.1kHz高品質ステレオ音声を自由に生成できます。専門的な訓練を経て、このモデルは音楽制作やサウンドデザイン用のドラムビート、楽器ループ、環境音、フォーリー録音、その他のオーディオサンプルの作成に適しています。
このオープンソース版の主な利点は、ユーザーが独自の音声データに基づいてモデルを微調整できることです。
著作権保護を重視した訓練プロセス
生成AIの急速な発展の中、音楽業界におけるAI使用に関する議論が激化しており、特に著作権問題が注目されています。
Stability AIは、クリエイターの著作権を尊重するため、Stable Audio OpenはFreesoundとFree Music Archive(FMA)からのデータセットを使用し、使用されたすべての録音物はクリエイティブ・コモンズ(CC)ライセンスの下で公開されていると述べています。
著作権で保護された素材を確実に避けるため、Stability AIはオーディオタガーを使用してFreesoundの音楽サンプルを識別し、識別されたサンプルをAudible Magicのコンテンツ検出会社に送信して、データセットから潜在的に著作権のある音楽を確実に削除していると主張しています。
結論:オープンソース、無料モデルがテキスト音声変換をより身近に
Stable Audio Openの発表は、Stability AIのテキスト音声変換モデルにおける革新と進歩を示しています。このモデルは音声の長さと一貫性のある生成に制限がありますが、その利点は明らかです。無料で高品質の44.1kHzステレオ音声を生成でき、一般的なGPUで実行できるため、テキスト音声変換の使用障壁を下げています。
同時に、Stable Audio Openは著作権保護の新しい基準を設定しながら、音声生成技術を開放しています。将来的に、技術が進歩し倫理規範が改善されるにつれて、Stable Audio Openはより多くの応用シナリオでその可能性を実現し、音声生成技術の発展と普及を促進することが期待されます。
現在、Stable Audio Openのモデルの重みは機械学習モデルプラットフォームHugging Faceで入手可能です。Stability AIは、サウンドデザイナー、ミュージシャン、開発者、音声に興味のある人々に、モデルの機能を探求し、フィードバックを提供することを奨励しています。