FLUX.1 [pro], es ist das brandneue SOTA-Modell für Text-zu-Bild-Generierung mit extrem detailreichen Bildern, sehr starker Prompt-Befolgung und vielfältigen Stilen. Es ist derzeit über API nutzbar.
API-Adresse: https://docs.bfl.ml/
Das zweite ist ### FLUX.1 [dev], eine Open-Weight, nicht-kommerzielle Variante von FLUX.1 [pro], die direkt daraus destilliert wurde. Dieses Modell übertrifft andere Bildmodelle wie Midjourney und Stable Diffusion 3. Inferenz-Code und Gewichte sind auf GitHub verfügbar. Das folgende Bild zeigt einen Vergleich mit konkurrierenden Bildmodellen.
GitHub-Adresse: https://github.com/black-forest-labs/flux
Das dritte ist das Open-Source ### FLUX.1 [schnell], ein hocheffizientes 4-Schritt-Modell unter der Apache 2.0-Lizenz. Dieses Modell ist in der Leistung sehr nahe an [dev] und [pro] und kann auf Hugging Face verwendet werden.
Hugging Face-Adresse: https://huggingface.co/black-forest-labs/FLUX.1-schnell
Gleichzeitig beginnt Black Forest Labs, sich selbst zu bewerben.
Das nächste Ziel ist die Einführung eines SOTA-Text-zu-Video-Modells für alle, auf das man sich freuen kann!
Ein Paukenschlag zum Auftakt: Die Text-zu-Bild-Modellserie "FLUX.1" ist da
Die drei von Black Forest Labs eingeführten Modelle verwenden alle eine hybride Architektur aus multimodalen und parallelen Diffusions-Transformern. Anders als andere, die eine Reihe von Modellen nach Parameterzahl in "mittel", "groß" und "extra groß" einteilen, sind alle Mitglieder der FLUX.1-Familie einheitlich auf die enorme Größe von 12 Milliarden Parametern erweitert.
Das Forschungsteam hat das Flow Matching-Framework verwendet, um frühere SOTA-Diffusionsmodelle zu verbessern. Aus den Anmerkungen im offiziellen Blog lässt sich schließen, dass das Forschungsteam die Rectified Flow+Transformer-Methode verwendet hat, die sie noch während ihrer Zeit bei Stability AI (im März dieses Jahres) vorgeschlagen hatten.
Paper-Link: https://arxiv.org/pdf/2403.03206.pdf
Sie führten auch rotierende Positionseinbettungen und parallele Aufmerksamkeitsschichten ein. Diese Methoden verbessern effektiv die Leistung der Bildgenerierung des Modells und beschleunigen auch die Bildgenerierung auf Hardware-Geräten.
Black Forest Labs hat diesmal keine detaillierten technischen Informationen über die Modelle veröffentlicht, aber ein detaillierterer technischer Bericht wird bald veröffentlicht.
Diese drei Modelle setzen in ihren jeweiligen Bereichen neue Standards. Ob es um die Ästhetik der generierten Bilder, die Übereinstimmung von Bild und Textprompt, die Variabilität der Größe/des Seitenverhältnisses oder die Vielfalt der Ausgabeformate geht, FLUX.1 [pro] und FLUX.1 [dev] übertreffen eine Reihe beliebter Bildgenerierungsmodelle wie Midjourney v6.0, DALL・E 3 (HD) und den ehemaligen Arbeitgeber SD3-Ultra.
FLUX.1 [schnell] ist das fortschrittlichste Few-Step-Modell bis heute, das nicht nur gleichartige Konkurrenten übertrifft, sondern auch leistungsstarke nicht-destillierte Modelle wie Midjourney v6.0 und DALL・E 3 (HD).
Die Modelle wurden speziell feinabgestimmt, um die volle Ausgabevielfalt der Vortrainingsphase zu erhalten. Im Vergleich zum aktuellen Stand der Technik haben die FLUX.1-Serienmodelle noch viel Raum für Verbesserungen.
Alle Modelle der FLUX.1-Serie unterstützen verschiedene Seitenverhältnisse und Auflösungen, von 0,1 bis 2 Millionen Pixel.
Einige schnelle Internetnutzer haben bereits erste Erfahrungen gemacht, und es scheint, dass Black Forest Labs' wiederholte Betonung von "am stärksten" nicht nur Eigenlob ist.
Mit einfachen Prompts können solche Effekte erzielt werden. Wenn man genau hinsieht, sind die Muster auf der Decke des Lamas weder verzerrt noch deformiert.
Prompt: An emerald Emu riding on top of a white llama.
Wenn man nicht sagen würde, dass dies ein KI-generiertes Bild ist, wäre es auch schwer zu unterscheiden, ob es nicht von einem Fotografen aufgenommen wurde.
Prompt: A horse is playing with two aligators at the river.
Bilder mit Text können auch leicht gemeistert werden, und die Tiefenschärfe wird sehr realistisch behandelt, was dem Gefühl einer echten Kamera entspricht.