Fundador do Stable Diffusion lidera equipe em nova startup, nova criação supera concorrentes e é disponibilizada em código aberto

Tecnologia de geração de imagens de código aberto alcança avanço significativo.

FLUX.1 [pro], é o novo modelo de geração de imagens a partir de texto SOTA, com detalhes de imagem extremamente ricos, forte capacidade de seguir prompts e estilos diversificados. Atualmente pode ser usado através de API.

Endereço da API: https://docs.bfl.ml/

O segundo é ### FLUX.1 [dev], que é uma variante de pesos abertos e não comercial do FLUX.1 [pro], destilada diretamente deste último. O desempenho deste modelo supera outros modelos de imagem como Midjourney e Stable Diffusion 3. O código de inferência e os pesos já foram disponibilizados no GitHub. A imagem abaixo é uma comparação com modelos de imagem concorrentes.

Endereço do GitHub: https://github.com/black-forest-labs/flux

O terceiro é o ### FLUX.1 [schnell] de código aberto, que é um modelo super eficiente de 4 etapas, seguindo a licença Apache 2.0. Este modelo tem desempenho muito próximo ao [dev] e [pro], e pode ser usado no Hugging Face.

Endereço no Hugging Face: https://huggingface.co/black-forest-labs/FLUX.1-schnell

Ao mesmo tempo, a Black Forest Labs também começou a se promover.

O próximo objetivo é lançar um modelo SOTA de geração de vídeo a partir de texto que todos possam usar, então todos podem esperar por isso!

Um golpe poderoso de início: Série de modelos de geração de imagem a partir de texto "FLUX.1" chega

Os três modelos lançados desta vez pela Black Forest Labs adotam uma arquitetura híbrida de transformers multimodais e de difusão paralela. Diferentemente de outras empresas que dividem uma série de modelos em "médio", "grande" e "extra grande" com base no número de parâmetros, os membros da família FLUX.1 são uniformemente expandidos para uma escala enorme de 12 bilhões de parâmetros.

A equipe de pesquisa usou a estrutura de Flow Matching para atualizar o modelo de difusão SOTA anterior. A partir das notas no blog oficial, pode-se inferir que a equipe de pesquisa continuou usando o método Rectified flow+Transformer proposto enquanto ainda trabalhava na Stability AI (em março deste ano).

Link do artigo: https://arxiv.org/pdf/2403.03206.pdf

Eles também introduziram incorporações de posição rotativas e camadas de atenção paralela. Esses métodos melhoraram efetivamente o desempenho da geração de imagens do modelo e também aceleraram a geração de imagens em dispositivos de hardware.

Desta vez, a Black Forest Labs não divulgou os detalhes técnicos do modelo, mas um relatório técnico mais detalhado será publicado em breve.

Esses três modelos estabeleceram novos padrões em seus respectivos campos. Seja na estética das imagens geradas, na adesão entre imagens e prompts de texto, na variabilidade de dimensões/proporções, ou na diversidade de formatos de saída, FLUX.1 [pro] e FLUX.1 [dev] superaram uma série de modelos populares de geração de imagens, como Midjourney v6.0, DALL・E 3 (HD) e SD3-Ultra da antiga empresa.

FLUX.1 [schnell] é o modelo de poucos passos (few-step model) mais avançado até o momento, superando não apenas concorrentes similares, mas também modelos não destilados poderosos como Midjourney v6.0 e DALL・E 3 (HD).

Os modelos foram especialmente ajustados para preservar toda a diversidade de saída da fase de pré-treinamento. Comparados com a tecnologia de ponta atual, os modelos da série FLUX.1 ainda mantêm amplo espaço para progresso.

Todos os modelos da série FLUX.1 suportam várias proporções e resoluções, de 0,1 a 2 milhões de pixels.

Alguns usuários da internet já se apressaram para experimentar, e parece que a afirmação repetida da Black Forest Labs de ser "o mais forte" não é apenas autopromoção.

Com prompts simples, é possível criar efeitos como este, e se você olhar atentamente para o padrão da almofada no lhama, também não há distorção ou deformação.

Prompt: An emerald Emu riding on top of a white llama.

Se não fosse dito que esta é uma imagem gerada por IA, seria difícil distinguir se é uma foto tirada por um fotógrafo.

Prompt: A horse is playing with two aligators at the river.

Imagens contendo texto também podem ser facilmente dominadas, e a profundidade de campo também é tratada de acordo com a sensação real da lente.