FLUX.1 [pro], es el nuevo modelo de generación de imágenes a partir de texto SOTA, con detalles de imagen extremadamente ricos, una capacidad de seguimiento de indicaciones muy fuerte y estilos diversos. Actualmente se puede utilizar a través de API.
Dirección de la API: https://docs.bfl.ml/
El segundo es ### FLUX.1 [dev], que es una variante de código abierto y no comercial de FLUX.1 [pro], y está directamente destilado de este último. El rendimiento de este modelo supera al de otros modelos de imagen como Midjourney y Stable Diffusion 3. El código de inferencia y los pesos ya están en GitHub. La imagen siguiente es una comparación con modelos de imagen competitivos.
Dirección de GitHub: https://github.com/black-forest-labs/flux
El tercero es el ### FLUX.1 [schnell] de código abierto, que es un modelo de 4 pasos súper eficiente, siguiendo la licencia Apache 2.0. Este modelo es muy cercano en rendimiento a [dev] y [pro], y se puede usar en Hugging Face.
Dirección de Hugging Face: https://huggingface.co/black-forest-labs/FLUX.1-schnell
Mientras tanto, Black Forest Labs también ha comenzado a promocionarse.
¡El próximo objetivo es lanzar un modelo SOTA de texto a video disponible para todos, así que todos pueden esperar con ansias!
Un golpe maestro desde el principio: llega la serie de modelos de texto a imagen "FLUX.1"
Los tres modelos lanzados por Black Forest Labs esta vez utilizan una arquitectura híbrida de transformadores de difusión multimodal y paralela. A diferencia de otros que dividen una serie de modelos en "mediano", "grande" y "extra grande" según el número de parámetros, los miembros de la familia FLUX.1 se expanden uniformemente a una escala enorme de 12 mil millones de parámetros.
El equipo de investigación utilizó el marco de Flow Matching para actualizar el modelo de difusión SOTA anterior. A partir de las notas en el blog oficial, se puede deducir que el equipo de investigación continuó con el método Rectified flow+Transformer propuesto mientras aún trabajaba en Stability AI (en marzo de este año).
Enlace del artículo: https://arxiv.org/pdf/2403.03206.pdf
También introdujeron incrustaciones de posición rotativa y capas de atención paralela. Estos métodos mejoraron efectivamente el rendimiento de generación de imágenes del modelo y aceleraron la generación de imágenes en dispositivos de hardware.
Black Forest Labs no reveló los detalles técnicos del modelo esta vez, pero se publicará pronto un informe técnico más detallado.
Estos tres modelos han establecido nuevos estándares en sus respectivos campos. Ya sea en términos de estética de las imágenes generadas, adherencia a las indicaciones de texto, variabilidad de tamaño/relación de aspecto, o diversidad de formatos de salida, FLUX.1 [pro] y FLUX.1 [dev] han superado a una serie de populares modelos de generación de imágenes como Midjourney v6.0, DALL・E 3 (HD) y SD3-Ultra de su antigua empresa.
FLUX.1 [schnell] es el modelo de pocos pasos más avanzado hasta la fecha, superando no solo a sus competidores similares, sino también a modelos no destilados poderosos como Midjourney v6.0 y DALL・E 3 (HD).
Los modelos han sido especialmente afinados para preservar toda la diversidad de salida de la fase de pre-entrenamiento. En comparación con la tecnología más avanzada actual, la serie de modelos FLUX.1 aún conserva un amplio margen de mejora.
Todos los modelos de la serie FLUX.1 admiten múltiples relaciones de aspecto y resoluciones, desde 0.1 hasta 2 millones de píxeles.
Ya hay usuarios rápidos que han experimentado con anticipación, parece que el "más fuerte" que Black Forest Labs ha enfatizado repetidamente no es solo una exageración.
Con indicaciones simples, se pueden crear efectos como este, mira cuidadosamente los patrones en la manta sobre la llama, que no muestran distorsión ni deformación.
Indicación: An emerald Emu riding on top of a white llama.
Si no se dijera que esta es una imagen generada por IA, sería bastante difícil distinguir si es una foto tomada por un fotógrafo.
Indicación: A horse is playing with two aligators at the river.
Las imágenes que contienen texto también se pueden manejar fácilmente, y la profundidad de campo también se procesa de acuerdo con la sensación de lente real.