FLUX.1 [pro] - это новейшая модель генерации изображений по тексту, обладающая чрезвычайно богатыми деталями изображений, очень сильной способностью следовать подсказкам и разнообразными стилями. В настоящее время доступна через API.
Адрес API: https://docs.bfl.ml/
Второй - ### FLUX.1 [dev], это открытая версия FLUX.1 [pro] с некоммерческими весами, полученная непосредственно путем дистилляции последней. Эта модель превосходит другие модели изображений, такие как Midjourney и Stable Diffusion 3. Код для вывода и веса уже размещены на GitHub. Ниже приведено сравнение с конкурирующими моделями изображений.
Адрес GitHub: https://github.com/black-forest-labs/flux
Третья - это открытая ### FLUX.1 [schnell], сверхэффективная 4-шаговая модель, следующая лицензии Apache 2.0. Эта модель очень близка по производительности к [dev] и [pro], и доступна на Hugging Face.
Адрес Hugging Face: https://huggingface.co/black-forest-labs/FLUX.1-schnell
Тем временем Black Forest Labs также начала продвигать себя.
Следующая цель - выпустить доступную для всех модель генерации видео по тексту SOTA, чего все могут с нетерпением ждать!
Сразу же бомба: серия моделей генерации изображений по тексту "FLUX.1" атакует
Все три модели, выпущенные Black Forest Labs на этот раз, используют гибридную архитектуру мультимодальных и параллельных диффузионных трансформеров. В отличие от других компаний, которые разделяют серию моделей на "средние", "большие" и "сверхбольшие" по количеству параметров, члены семейства FLUX.1 единообразно расширены до огромного масштаба в 12 миллиардов параметров.
Исследовательская команда использовала структуру сопоставления потоков (Flow Matching) для обновления предыдущих моделей диффузии SOTA. Из комментариев в официальном блоге можно предположить, что исследовательская команда продолжила использовать метод Rectified flow+Transformer, предложенный еще во время работы в Stability AI (в марте этого года).
Ссылка на статью: https://arxiv.org/pdf/2403.03206.pdf
Они также ввели вращающиеся позиционные вложения и параллельные слои внимания. Эти методы эффективно улучшили производительность модели в генерации изображений, а также ускорили генерацию изображений на аппаратных устройствах.
На этот раз Black Forest Labs не раскрыла подробных технических деталей моделей, но более подробный технический отчет будет опубликован в ближайшее время.
Эти три модели установили новые стандарты в своих областях. Будь то эстетика генерируемых изображений, соответствие изображений текстовым подсказкам, изменяемость размеров/соотношений сторон или разнообразие выходных форматов, FLUX.1 [pro] и FLUX.1 [dev] превзошли ряд популярных моделей генерации изображений, таких как Midjourney v6.0, DALL・E 3 (HD) и SD3-Ultra от бывшей компании.
FLUX.1 [schnell] - это самая передовая на сегодняшний день малошаговая модель (few-step model), которая не только превосходит аналогичных конкурентов, но и превосходит мощные недистиллированные модели, такие как Midjourney v6.0 и DALL・E 3 (HD).
Модели были специально настроены для сохранения всего разнообразия выходных данных предварительного обучения. По сравнению с текущими передовыми технологиями, модели серии FLUX.1 все еще сохраняют достаточное пространство для улучшения.
Все модели серии FLUX.1 поддерживают различные соотношения сторон и разрешения, от 0,1 до 2 миллионов пикселей.
Некоторые быстрые пользователи уже успели опробовать их, и похоже, что "самые сильные", как неоднократно подчеркивали в Black Forest Labs, - это не просто самореклама.
Простые подсказки могут создать такой эффект, внимательно посмотрите на узор на подушке ламы, он не искажен и не деформирован.
Подсказка: An emerald Emu riding on top of a white llama.
Если не сказать, что это изображение, сгенерированное ИИ, трудно отличить его от фотографии, сделанной фотографом.
Подсказка: A horse is playing with two aligators at the river.
Изображения с текстом также легко создаются, а глубина резкости обрабатывается в соответствии с реальным ощущением объектива.