Stable Diffusion创始人带领团队创业，新产品超越竞争对手并开放源代码

FLUX.1 [pro]，这是一个全新的最先进文本生成图像模型，具有极其丰富的图像细节、极强的提示词遵循能力和多样化风格。目前可以通过API使用。

API地址：https://docs.bfl.ml/

第二个是### FLUX.1 [dev]，它是FLUX.1 [pro]的开放权重、非商用变体，并直接基于后者蒸馏而成。该模型的表现优于Midjourney和Stable Diffusion 3等其他图像模型。推理代码和权重已经放在了GitHub上。下图是与竞品图像模型的比较。

GitHub地址：https://github.com/black-forest-labs/flux

第三个是开源的### FLUX.1 [schnell]，它是超高效的4步模型，遵循了Apache 2.0协议。该模型在性能上与[dev]、[pro]非常接近，可以在Hugging Face上使用。

Hugging Face地址：https://huggingface.co/black-forest-labs/FLUX.1-schnell

与此同时，Black Forest Labs也开始宣传自己了。

下一步的目标是推出所有人可用的最先进文本生成视频模型，大家可以期待一波了！

一出手即王炸：文生图模型系列"FLUX.1"来袭

这次Black Forest Labs推出的三款模型，均采用了多模态和并行扩散Transformer的混合架构。不同于其他家将一系列模型按参数量分为"中杯"、"大杯"、"超大杯"，FLUX.1家族的成员统一扩展为120亿参数的庞大规模。

研究团队采用了流匹配（Flow Matching）框架对之前最先进扩散模型进行了升级。从官方博客的注释中可以推测，研究团队沿用了还在Stability AI任职时（今年3月）提出的Rectified flow+Transformer方法。

论文链接：https://arxiv.org/pdf/2403.03206.pdf

他们还引入了旋转位置嵌入和并行注意力层。这些方法有效提高了模型生成图片的性能，在硬件设备上生成图片的速度也变得更快了。

这次Black Forest Labs并未公开模型的详细技术，不过更详细的技术报告将很快公布。

这三款模型在各自的领域都确立了新标准。无论是生成图像的美观度、图像与文本提示词的附和度、尺寸/宽高比可变性、还是输出格式的多样性，FLUX.1 [pro]和FLUX.1 [dev]都超越了一系列当红图片生成模型，如Midjourney v6.0、DALL・E 3 (HD)以及老东家SD3-Ultra。

FLUX.1 [schnell]是迄今为止最先进的少步骤模型（few-step model），不仅超越了同类竞争对手，还超越了像Midjourney v6.0和DALL・E 3 (HD)这样的强大非蒸馏模型。

模型经过专门微调，以保留预训练阶段的全部输出多样性。与当前最先进的技术相比，FLUX.1系列模型还保留了充分的进步空间。

所有FLUX.1系列的模型都支持多种纵横比和分辨率，从0.1到2百万像素，都能拿下。

已经有动作快的网友抢先体验上了，看来Black Forest Labs反复强调的"最强"，并不只是自卖自夸。

简单的提示词，就可以打造出这样的效果，仔细看羊驼身上垫子的花纹，也没有出现扭曲和变形。

提示词：An emerald Emu riding on top of a white llama.

如果不说这是AI生成的图片，也挺难分辨这是不是摄影师拍下的照片。

提示词：A horse is playing with two aligators at the river.

含有文字的图像，也能轻松拿捏，景深也处理得很符合真实的镜头感。

Stable Diffusion创始人带领团队创业，新产品超越竞争对手并开放源代码

开源图像生成技术迎来突破性进展。

FLUX.1 [pro]，这是一个全新的最先进文本生成图像模型，具有极其丰富的图像细节、极强的提示词遵循能力和多样化风格。目前可以通过API使用。

一出手即王炸：文生图模型系列"FLUX.1"来袭