FLUX.1 [pro], c'est le nouveau modèle de pointe pour la génération d'images à partir de texte, offrant des détails d'image extrêmement riches, une capacité de suivi des instructions très forte et des styles variés. Il est actuellement disponible via API.
Adresse API : https://docs.bfl.ml/
Le deuxième est ### FLUX.1 [dev], qui est une variante à poids ouvert et non commerciale de FLUX.1 [pro], directement distillée de ce dernier. Ce modèle surpasse d'autres modèles d'image comme Midjourney et Stable Diffusion 3. Le code d'inférence et les poids sont disponibles sur GitHub. L'image ci-dessous est une comparaison avec les modèles d'image concurrents.
Adresse GitHub : https://github.com/black-forest-labs/flux
Le troisième est ### FLUX.1 [schnell] open source, un modèle ultra-efficace en 4 étapes, sous licence Apache 2.0. Ce modèle est très proche de [dev] et [pro] en termes de performance et peut être utilisé sur Hugging Face.
Adresse Hugging Face : https://huggingface.co/black-forest-labs/FLUX.1-schnell
Pendant ce temps, Black Forest Labs a également commencé à faire sa propre promotion.
L'objectif suivant est de lancer un modèle de génération de vidéo à partir de texte de pointe accessible à tous, on peut s'attendre à du lourd !
Un coup de maître dès le début : la série de modèles de génération d'images "FLUX.1" arrive
Les trois modèles lancés par Black Forest Labs cette fois-ci utilisent tous une architecture hybride multimodale et de transformateur de diffusion parallèle. Contrairement aux autres qui divisent une série de modèles en "moyen", "grand" et "très grand" selon le nombre de paramètres, les membres de la famille FLUX.1 sont tous étendus à une échelle massive de 12 milliards de paramètres.
L'équipe de recherche a utilisé le cadre de correspondance de flux (Flow Matching) pour mettre à niveau le précédent modèle de diffusion de pointe. D'après les annotations du blog officiel, on peut déduire que l'équipe de recherche a continué à utiliser la méthode Rectified flow+Transformer proposée alors qu'ils travaillaient encore chez Stability AI (en mars de cette année).
Lien de l'article : https://arxiv.org/pdf/2403.03206.pdf
Ils ont également introduit des intégrations de position rotatives et des couches d'attention parallèles. Ces méthodes ont efficacement amélioré les performances de génération d'images du modèle, et la vitesse de génération d'images sur les dispositifs matériels est également devenue plus rapide.
Cette fois, Black Forest Labs n'a pas divulgué les détails techniques du modèle, mais un rapport technique plus détaillé sera bientôt publié.
Ces trois modèles ont établi de nouvelles normes dans leurs domaines respectifs. Que ce soit en termes d'esthétique des images générées, de correspondance entre l'image et les instructions textuelles, de variabilité des dimensions/ratios d'aspect, ou de diversité des formats de sortie, FLUX.1 [pro] et FLUX.1 [dev] surpassent une série de modèles populaires de génération d'images, tels que Midjourney v6.0, DALL・E 3 (HD) et SD3-Ultra de leur ancien employeur.
FLUX.1 [schnell] est le modèle à peu d'étapes (few-step model) le plus avancé à ce jour, surpassant non seulement ses concurrents de la même catégorie, mais aussi des modèles non distillés puissants comme Midjourney v6.0 et DALL・E 3 (HD).
Les modèles ont été spécialement affinés pour préserver toute la diversité de sortie de la phase de pré-entraînement. Comparés à l'état de l'art actuel, les modèles de la série FLUX.1 conservent une marge de progression suffisante.
Tous les modèles de la série FLUX.1 prennent en charge divers ratios d'aspect et résolutions, de 0,1 à 2 millions de pixels.
Des internautes rapides ont déjà eu l'occasion de les essayer en avant-première, il semble que l'affirmation répétée de Black Forest Labs d'être "le meilleur" ne soit pas seulement de la vantardise.
Avec des instructions simples, on peut obtenir de tels effets, en regardant attentivement les motifs sur le coussin du lama, il n'y a pas de distorsion ni de déformation.
Instruction : An emerald Emu riding on top of a white llama.
Si on ne disait pas que c'est une image générée par IA, il serait assez difficile de distinguer si c'est une photo prise par un photographe.
Instruction : A horse is playing with two aligators at the river.
Les images contenant du texte sont également facilement maîtrisées, et la profondeur de champ est traitée de manière très conforme à la sensation réelle de l'objectif.