1890美元訓練11.6億參數文生圖模型：成本僅Stable Diffusion百分之一

近日，來自加州大學爾灣分校等機構的研究人員利用延遲遮罩、MoE、分層擴展等策略，將擴散模型的訓練成本降到了1890美元。這比之前最便宜的方法(Wuerstchen)的28400美元還要低一個數量級，而像Stable Diffusion這樣的模型的成本則更高。

研究者們嘗試了各種方案來降低這龐大的開銷。比如，原始的擴散模型從噪聲到圖像大約需要1000步，目前已經被減少到20步左右，甚至更少。當擴散模型中的基礎模組逐漸由Unet(CNN)替換為DiT(Transformer)之後，一些根據Transformer特性來做的優化也跟了上來，如量化、跳過Attention中的一些冗餘計算、pipeline等。

本研究從頭開始訓練一個11.6億參數的擴散模型，只需要1890美元。這對比SOTA有了一個數量級的提升，讓普通人也看到了能摸一摸預訓練的希望。更重要的是，降低成本的技術並沒有影響模型的性能，11.6億個參數給出了非常不錯的效果。除了觀感，模型的數據指標也很優秀，比如FID分數非常接近Stable Diffusion 1.5和DALL·E 2。

省錢的秘訣主要包括:

延遲遮罩策略：在mask之前使用混合器(patch-mixer)進行預處理，把被丟棄patch的信息嵌入到倖存的patch中，從而顯著減少高mask帶來的性能下降。
微調：在預訓練(mask)後進行小幅度的微調(unmask)，以減輕由於使用mask而產生的不良生成偽影。
MoE和分層擴展：使用基於專家選擇路由的簡化MoE層，增加模型的參數和表達能力，而不會顯著增加訓練成本。同時考慮了分層縮放方法，線性增加Transformer塊的寬度。

實驗設置方面，作者使用兩種DiT的變體：DiT-Tiny/2和DiT-Xl/2，patch大小為2。使用具有餘弦學習率衰減和高權重衰減的AdamW優化器訓練所有模型。模型前端使用Stable-Diffusion-XL模型中的四通道變分自動編碼器(VAE)來提取圖像特徵，另外還測試了最新的16通道VAE在大規模訓練(省錢版)中的性能。

作者使用EDM框架作為所有擴散模型的統一訓練設置，使用FID以及CLIP分數來衡量圖像生成模型的性能。文本編碼器選擇了最常用的CLIP模型。

訓練數據集使用了三個真實圖像數據集(Conceptual Captions、Segment Anything、TextCaps)，包含2200萬個圖像文本對。由於SA1B不提供真實的字幕，這裡使用LLaVA模型生成的合成字幕。

論文地址

1890美元訓練11.6億參數文生圖模型：成本僅Stable Diffusion百分之一

精明理財的藝術