FLUX.1 [pro],它是全新的 SOTA 文生圖模型,具有極其豐富的圖像細節、極強的 prompt 遵循能力和多樣化風格。目前可以通過 API 使用。
API 地址:https://docs.bfl.ml/
第二個是### FLUX.1 [dev],它是 FLUX.1 [pro] 的開放權重、非商用變體,並直接基於後者蒸餾而成。該模型的表現優於 Midjourney 和 Stable Diffusion 3 等其他圖像模型。推理代碼和權重已經放在了 GitHub 上。下圖是與競品圖像模型的比較。
GitHub 地址:https://github.com/black-forest-labs/flux
第三個是開源的### FLUX.1 [schnell],它是超高效的 4-step 模型,遵循了 Apache 2.0 協議。該模型在性能上與 [dev]、[pro] 非常接近,可以在 Hugging Face 上使用。
Hugging Face 地址:https://huggingface.co/black-forest-labs/FLUX.1-schnell
與此同時,Black Forest Labs 也開始宣傳自己了。
下一步的目標是推出所有人可用的 SOTA 文生視頻模型,大家可以期待一波了!
一出手即王炸:文生圖模型系列「FLUX.1」來襲
這次 Black Forest Labs 推出的三款模型,均採用了多模態和並行擴散 Transformer 的混合架構。不同於其他家將一系列模型按參數量分為「中杯」、「大杯」、「超大杯」,FLUX.1 家族的成員統一擴展為 120 億參數的龐大規模。
研究團隊採用了流匹配(Flow Matching)框架對之前 SOTA 擴散模型進行了升級。從官方博客的註釋中可以推測,研究團隊沿用了還在 Stability AI 任職時(今年 3 月)提出的 Rectified flow+Transformer 方法。
論文連結:https://arxiv.org/pdf/2403.03206.pdf
他們還引入了旋轉位置嵌入和並行注意力層。這些方法有效提高了模型生成圖片的性能,在硬件設備上生成圖片的速度也變得更快了。
這次 Black Forest Labs 並未公開模型的詳細技術,不過更詳細的技術報告將很快公布。
這三款模型在各自的領域都確立了新標準。無論是生成圖像的美觀度、圖像與文本提示詞的附和度、尺寸 / 寬高比可變性、還是輸出格式的多樣性, FLUX.1 [pro] 和 FLUX.1 [dev] 都超越了一系列當紅圖片生成模型,如 Midjourney v6.0、DALL・E 3 (HD) 以及老東家 SD3-Ultra。
FLUX.1 [schnell] 是迄今為止最先進的少步驟模型(few-step model),不僅超越了同類競爭對手,還超越了像 Midjourney v6.0 和 DALL・E 3 (HD) 這樣的強大非蒸餾模型。
模型經過專門微調,以保留預訓練階段的全部輸出多樣性。與當前最先進的技術相比,FLUX.1 系列模型還保留了充分的進步空間。
所有 FLUX.1 系列的模型都支持多種縱橫比和解析度,從 0.1 到 2 百萬像素,都能拿下。
已經有動作快的網友搶先體驗上了,看來 Black Forest Labs 反復強調的「最強」,並不只是自賣自誇。
簡單的提示詞,就可以打造出這樣的效果,仔細看羊駝身上墊子的花紋,也沒有出現扭曲和變形。
提示詞:An emerald Emu riding on top of a white llama.
如果不說這是 AI 生成的圖片,也挺難分辨這是不是攝影師拍下的照片。
提示詞:A horse is playing with two aligators at the river.
含有文字的圖像,也能輕鬆拿捏,景深也處理得很符合真實的鏡頭感。