Stable Diffusionの創始者がチームを率いて起業し、競合製品を超える新作をオープンソースで公開

オープンソースの画像生成技術が画期的な進歩を遂げました。

FLUX.1 [pro]は、非常に豊かな画像の詳細、非常に強力なプロンプト遵守能力、多様なスタイルを持つ、全く新しいSOTA文章から画像生成モデルです。現在、APIを通じて使用できます。

APIアドレス:https://docs.bfl.ml/

2つ目は### FLUX.1 [dev]で、FLUX.1 [pro]のオープンウェイト、非商用バリアントであり、後者から直接蒸留されています。このモデルは、MidjourneyやStable Diffusion 3などの他の画像モデルよりも優れたパフォーマンスを示しています。推論コードとウェイトはすでにGitHubで公開されています。以下の画像は、競合する画像モデルとの比較です。

GitHubアドレス:https://github.com/black-forest-labs/flux

3つ目はオープンソースの### FLUX.1 [schnell]で、超高効率の4ステップモデルで、Apache 2.0ライセンスに従っています。このモデルは性能面で[dev]、[pro]に非常に近く、Hugging Faceで使用できます。

Hugging Faceアドレス:https://huggingface.co/black-forest-labs/FLUX.1-schnell

同時に、Black Forest Labsも自社の宣伝を始めました。

次のステップは、誰もが使えるSOTA文章から動画生成モデルをリリースすることで、期待が高まっています!

一発で大当たり:文章から画像生成モデルシリーズ「FLUX.1」の登場

今回Black Forest Labsが発表した3つのモデルは、いずれもマルチモーダルと並列拡散Transformerのハイブリッドアーキテクチャを採用しています。他社が一連のモデルをパラメータ数で「中」「大」「特大」と分類するのとは異なり、FLUX.1ファミリーのメンバーは統一して120億パラメータの巨大なスケールに拡張されています。

研究チームは、フローマッチング(Flow Matching)フレームワークを使用して以前のSOTA拡散モデルをアップグレードしました。公式ブログの注釈から推測すると、研究チームはStability AIに在籍していた時(今年3月)に提案したRectified flow+Transformer手法を踏襲しています。

論文リンク:https://arxiv.org/pdf/2403.03206.pdf

彼らはさらに、回転位置埋め込みと並列注意層を導入しました。これらの方法により、モデルの画像生成性能が効果的に向上し、ハードウェアデバイス上での画像生成速度も速くなりました。

今回、Black Forest Labsはモデルの詳細な技術を公開していませんが、より詳細な技術報告書がまもなく公開される予定です。

これら3つのモデルは、それぞれの分野で新しい基準を確立しました。生成される画像の美しさ、画像とテキストプロンプトの一致度、サイズ/アスペクト比の可変性、出力フォーマットの多様性において、FLUX.1 [pro]とFLUX.1 [dev]は、Midjourney v6.0、DALL・E 3 (HD)、そして元の所属先であるSD3-Ultraなど、一連の人気画像生成モデルを凌駕しています。

FLUX.1 [schnell]は、これまでで最も先進的な少ステップモデル(few-step model)であり、同類の競合相手を超えただけでなく、Midjourney v6.0やDALL・E 3 (HD)のような強力な非蒸留モデルも凌駕しています。

モデルは、事前学習段階の全出力多様性を保持するように特別に微調整されています。現在の最先端技術と比較して、FLUX.1シリーズモデルはさらなる進歩の余地を十分に残しています。

FLUX.1シリーズの全モデルは、0.1から200万ピクセルまで、多様なアスペクト比と解像度をサポートしています。

すでに素早い行動をとったネットユーザーが先行体験を始めており、Black Forest Labsが繰り返し強調している「最強」が単なる自画自賛ではないことが分かります。

シンプルなプロンプトで、このような効果を生み出すことができます。ラマの背中の敷物の模様をよく見ても、歪みや変形は見られません。

プロンプト:An emerald Emu riding on top of a white llama.

これがAIが生成した画像だと言わなければ、写真家が撮影した写真かどうか判別するのも難しいでしょう。

プロンプト:A horse is playing with two aligators at the river.

文字を含む画像も簡単に扱え、被写界深度も実際のレンズ感覚に非常に合致するように処理されています。