Все еще пишете промпты одним предложением? Вы тоже можете использовать ИИ для создания того, что хотите
В настоящее время Midjourney является наиболее часто используемым Бокой инструментом для генерации изображений с помощью ИИ, с помощью которого она создает иллюстрации во французском стиле, 3D-персонажей и художественные материалы для игр-три в ряд.
Ваш ИИ и мой ИИ, кажется, отличаются. ИИ позволяет даже новичкам создавать изображения одним предложением, но создание конкретных работ в определенном стиле все еще остается сложной задачей для многих.
Есть две основные причины: ИИ не так легко контролировать, и в то же время мы можем не понимать ИИ, не зная, как к нему подступиться.
Когда я спросил Боку: "Есть ли какие-то секреты написания промптов?", Бока спокойно ответила: "На самом деле, достаточно просто знать английский".
Хотя это, безусловно, является важной предпосылкой, есть также некоторые конкретные и практические методологии для управления ИИ.
Во-первых, нужно знать, что именно мы хотим, чтобы ИИ сгенерировал.
Возьмем, к примеру, западные игры-три в ряд (головоломки, где нужно убрать как минимум три одинаковых элемента), с которыми Бока хорошо знакома. В них обязательно есть фоновые изображения, узоры для удаления и значки, представляющие различные награды. Если добавить элементы декорирования для разблокировки различных сцен, то могут быть и предметы мебели, такие как диваны.
В этом случае, чтобы сгенерировать нужный предмет, достаточно просто написать его в промпте: сундук с сокровищами - это "treasure chest", ключ - это "key".
Далее, как определить художественный стиль?
Один из способов - изучать уроки и промпты других людей, накапливая некоторые специфические промпты.
Чтобы сгенерировать с помощью ИИ интерфейс для игры-три в ряд, Бока просмотрела множество видео на YouTube о дизайне UI-иконок с помощью ИИ.
Из них она узнала ключевой промпт: "multiple item spritedsheet", который используется для создания набора изображений, содержащих несколько связанных узоров. Это помогает сохранить согласованность стиля и угла иконок, избегая отклонений ИИ.
Другой способ - попросить ИИ подсказать нам, какие промпты использовать.
Снова возьмем пример с игрой-три в ряд: как написать промпт, если нам нужен эффект вида сверху для фонового изображения?
Подход Боки заключается в том, чтобы не спешить с написанием, а найти изображение, соответствующее нашим требованиям, загрузить его в Midjourney и использовать функцию Describe, чтобы получить промпт для этого изображения.
При этом не обязательно принимать все промпты, предложенные ИИ. Нам нужна только часть, связанная с ракурсом, например, "a top-down view of an interior room" (вид сверху на интерьер комнаты), которую можно включить в свой промпт.
Но одного хорошо написанного промпта недостаточно. Многие изображения, созданные ИИ, выглядят одинаково - яркие, глянцевые, лишенные индивидуальности, забывающиеся сразу после просмотра.
Бока объясняет, что это связано с природой моделей ИИ: их стиль рисования склонен к однообразию и массовости. Когда мы описываем сцену только словами, ИИ часто генерирует обычное, скучное изображение, соответствующее западной эстетике.
В то же время язык не является точным, и трудно напрямую создать стиль, который мы хотим. Когда мы говорим "китайский стиль", у тысячи людей может быть тысяча разных представлений, и ИИ не знает, какой именно мы имеем в виду.
Самое простое решение - использовать "подложку", дав ИИ четкое указание. В Midjourney можно загрузить соответствующее изображение и использовать функцию стилевой ссылки "--sref" для фиксации стиля рисования.
Можно сказать, что при неизменном промпте именно подложка напрямую определяет качество и стиль изображения. Чем более стилизована подложка, тем менее шаблонным будет сгенерированное изображение.
По опыту Боки, подложка не должна быть сложной, чем проще, тем прямолинейнее эффект. Использование простого сундука в западном мультипликационном стиле на белом фоне в качестве подложки может превратить обычную иконку в иконку, соответствующую стилю западных игр-три в ряд.
Весь этот опыт генерации изображений Бока получила из изучения уроков и личной практики.
Бока верит, что после множества попыток мы быстро разработаем свою собственную методологию работы с ИИ, будь то промпты или рабочий процесс, и станем в этом искусными, потому что, по ее мнению, "порог входа в ИИ на самом деле довольно низкий".
Не спешите принимать ИИ, но как только начнете, используйте каждую функцию по максимуму
В общей сложности Бока работает с генеративным ИИ всего восемь-девять месяцев, и наиболее часто использует только три инструмента: ChatGPT, Midjourney и KREA (программа для восстановления изображений в высоком разрешении), придерживаясь принципа "простота - ключ к успеху".
Midjourney появился еще в июле 2022 года, но когда Бока впервые увидела изображения, сгенерированные одним предложением, она не испытала сильного впечатления или шока, потому что качество было не очень хорошим.
В начале этого года инструменты для генерации изображений с помощью ИИ прошли несколько крупных обновлений, технология стала более зрелой, появилось больше контролируемых мелких функций. Постепенно Бока увидела коммерческий потенциал и решила, что пришло время отнестись к этому серьезно.
Что касается новых технологий, позиция Боки такова: учиться, безусловно, нужно, но можно немного подождать более зрелых продуктов, иначе будет потрачено много ненужных усилий. Когда действительно начинаешь использовать, нужно использовать все возможности по максимуму.
В Midjourney есть всего несколько часто обсуждаемых функций, но я считаю, что научиться хорошо использовать эти несколько функций - это процесс, который требует много практики.
ИИ все еще не полностью контролируем, генерация изображений - это повседневная практика, но всегда есть способы не дать ИИ слишком много свободы.
Бока использовала Midjourney для многих дизайнов IP и часто использует две его функции: функцию стилевой ссылки "--sref" для фиксации стиля рисования и функцию согласованности персонажей "--cref" для фиксации образа персонажа.
Таким образом, после нескольких генераций сходство между изображениями остается на уровне 80-90%.
Иногда изображения, сгенерированные ИИ, не полные. Например, мы хотим получить полноростовое изображение IP-персонажа, но результат ИИ не включает ноги.
Бока предлагает либо попробовать несколько раз, либо использовать функцию расширения изображения "Zoom Out" в Midjourney, чтобы расширить холст и позволить ИИ сгенерировать недостающие части.
Кроме того, ИИ часто генерирует мелкие, ненужные детали. Бока использует функцию редактирования определенных областей "Vary (Region)" в Midjourney для простого удаления.