FLUX.1 [pro],这是一个全新的最先进文本生成图像模型,具有极其丰富的图像细节、极强的提示词遵循能力和多样化风格。目前可以通过API使用。
API地址:https://docs.bfl.ml/
第二个是### FLUX.1 [dev],它是FLUX.1 [pro]的开放权重、非商用变体,并直接基于后者蒸馏而成。该模型的表现优于Midjourney和Stable Diffusion 3等其他图像模型。推理代码和权重已经放在了GitHub上。下图是与竞品图像模型的比较。
GitHub地址:https://github.com/black-forest-labs/flux
第三个是开源的### FLUX.1 [schnell],它是超高效的4步模型,遵循了Apache 2.0协议。该模型在性能上与[dev]、[pro]非常接近,可以在Hugging Face上使用。
Hugging Face地址:https://huggingface.co/black-forest-labs/FLUX.1-schnell
与此同时,Black Forest Labs也开始宣传自己了。
下一步的目标是推出所有人可用的最先进文本生成视频模型,大家可以期待一波了!
一出手即王炸:文生图模型系列"FLUX.1"来袭
这次Black Forest Labs推出的三款模型,均采用了多模态和并行扩散Transformer的混合架构。不同于其他家将一系列模型按参数量分为"中杯"、"大杯"、"超大杯",FLUX.1家族的成员统一扩展为120亿参数的庞大规模。
研究团队采用了流匹配(Flow Matching)框架对之前最先进扩散模型进行了升级。从官方博客的注释中可以推测,研究团队沿用了还在Stability AI任职时(今年3月)提出的Rectified flow+Transformer方法。
论文链接:https://arxiv.org/pdf/2403.03206.pdf
他们还引入了旋转位置嵌入和并行注意力层。这些方法有效提高了模型生成图片的性能,在硬件设备上生成图片的速度也变得更快了。
这次Black Forest Labs并未公开模型的详细技术,不过更详细的技术报告将很快公布。
这三款模型在各自的领域都确立了新标准。无论是生成图像的美观度、图像与文本提示词的附和度、尺寸/宽高比可变性、还是输出格式的多样性,FLUX.1 [pro]和FLUX.1 [dev]都超越了一系列当红图片生成模型,如Midjourney v6.0、DALL・E 3 (HD)以及老东家SD3-Ultra。
FLUX.1 [schnell]是迄今为止最先进的少步骤模型(few-step model),不仅超越了同类竞争对手,还超越了像Midjourney v6.0和DALL・E 3 (HD)这样的强大非蒸馏模型。
模型经过专门微调,以保留预训练阶段的全部输出多样性。与当前最先进的技术相比,FLUX.1系列模型还保留了充分的进步空间。
所有FLUX.1系列的模型都支持多种纵横比和分辨率,从0.1到2百万像素,都能拿下。
已经有动作快的网友抢先体验上了,看来Black Forest Labs反复强调的"最强",并不只是自卖自夸。
简单的提示词,就可以打造出这样的效果,仔细看羊驼身上垫子的花纹,也没有出现扭曲和变形。
提示词:An emerald Emu riding on top of a white llama.
如果不说这是AI生成的图片,也挺难分辨这是不是摄影师拍下的照片。
提示词:A horse is playing with two aligators at the river.
含有文字的图像,也能轻松拿捏,景深也处理得很符合真实的镜头感。