Основатель Stable Diffusion возглавляет команду в новом стартапе, их новая работа превосходит конкурентов и становится открытым исходным кодом

FLUX.1 [pro] - это новейшая модель генерации изображений по тексту, обладающая чрезвычайно богатыми деталями изображений, очень сильной способностью следовать подсказкам и разнообразными стилями. В настоящее время доступна через API.

Второй - ### FLUX.1 [dev], это открытая версия FLUX.1 [pro] с некоммерческими весами, полученная непосредственно путем дистилляции последней. Эта модель превосходит другие модели изображений, такие как Midjourney и Stable Diffusion 3. Код для вывода и веса уже размещены на GitHub. Ниже приведено сравнение с конкурирующими моделями изображений.

Адрес GitHub: https://github.com/black-forest-labs/flux

Третья - это открытая ### FLUX.1 [schnell], сверхэффективная 4-шаговая модель, следующая лицензии Apache 2.0. Эта модель очень близка по производительности к [dev] и [pro], и доступна на Hugging Face.

Адрес Hugging Face: https://huggingface.co/black-forest-labs/FLUX.1-schnell

Тем временем Black Forest Labs также начала продвигать себя.

Следующая цель - выпустить доступную для всех модель генерации видео по тексту SOTA, чего все могут с нетерпением ждать!

Сразу же бомба: серия моделей генерации изображений по тексту "FLUX.1" атакует

Все три модели, выпущенные Black Forest Labs на этот раз, используют гибридную архитектуру мультимодальных и параллельных диффузионных трансформеров. В отличие от других компаний, которые разделяют серию моделей на "средние", "большие" и "сверхбольшие" по количеству параметров, члены семейства FLUX.1 единообразно расширены до огромного масштаба в 12 миллиардов параметров.

Исследовательская команда использовала структуру сопоставления потоков (Flow Matching) для обновления предыдущих моделей диффузии SOTA. Из комментариев в официальном блоге можно предположить, что исследовательская команда продолжила использовать метод Rectified flow+Transformer, предложенный еще во время работы в Stability AI (в марте этого года).

Ссылка на статью: https://arxiv.org/pdf/2403.03206.pdf

Они также ввели вращающиеся позиционные вложения и параллельные слои внимания. Эти методы эффективно улучшили производительность модели в генерации изображений, а также ускорили генерацию изображений на аппаратных устройствах.

На этот раз Black Forest Labs не раскрыла подробных технических деталей моделей, но более подробный технический отчет будет опубликован в ближайшее время.

Эти три модели установили новые стандарты в своих областях. Будь то эстетика генерируемых изображений, соответствие изображений текстовым подсказкам, изменяемость размеров/соотношений сторон или разнообразие выходных форматов, FLUX.1 [pro] и FLUX.1 [dev] превзошли ряд популярных моделей генерации изображений, таких как Midjourney v6.0, DALL・E 3 (HD) и SD3-Ultra от бывшей компании.

FLUX.1 [schnell] - это самая передовая на сегодняшний день малошаговая модель (few-step model), которая не только превосходит аналогичных конкурентов, но и превосходит мощные недистиллированные модели, такие как Midjourney v6.0 и DALL・E 3 (HD).

Модели были специально настроены для сохранения всего разнообразия выходных данных предварительного обучения. По сравнению с текущими передовыми технологиями, модели серии FLUX.1 все еще сохраняют достаточное пространство для улучшения.

Все модели серии FLUX.1 поддерживают различные соотношения сторон и разрешения, от 0,1 до 2 миллионов пикселей.

Некоторые быстрые пользователи уже успели опробовать их, и похоже, что "самые сильные", как неоднократно подчеркивали в Black Forest Labs, - это не просто самореклама.

Простые подсказки могут создать такой эффект, внимательно посмотрите на узор на подушке ламы, он не искажен и не деформирован.

Подсказка: An emerald Emu riding on top of a white llama.

Если не сказать, что это изображение, сгенерированное ИИ, трудно отличить его от фотографии, сделанной фотографом.

Подсказка: A horse is playing with two aligators at the river.

Изображения с текстом также легко создаются, а глубина резкости обрабатывается в соответствии с реальным ощущением объектива.

Основатель Stable Diffusion возглавляет команду в новом стартапе, их новая работа превосходит конкурентов и становится открытым исходным кодом

Технология генерации изображений с открытым исходным кодом достигла прорыва.

Сразу же бомба: серия моделей генерации изображений по тексту "FLUX.1" атакует