AI переворот: 8 месяцев исследования новых моделей работы с ИИ бывшими сотрудниками крупных технологических компаний

Все еще пишете промпты одним предложением? Вы тоже можете использовать ИИ для создания того, что хотите

В настоящее время Midjourney является наиболее часто используемым Бокой инструментом для генерации изображений с помощью ИИ, с помощью которого она создает иллюстрации во французском стиле, 3D-персонажей и художественные материалы для игр-три в ряд.

Ваш ИИ и мой ИИ, кажется, отличаются. ИИ позволяет даже новичкам создавать изображения одним предложением, но создание конкретных работ в определенном стиле все еще остается сложной задачей для многих.

Есть две основные причины: ИИ не так легко контролировать, и в то же время мы можем не понимать ИИ, не зная, как к нему подступиться.

Когда я спросил Боку: "Есть ли какие-то секреты написания промптов?", Бока спокойно ответила: "На самом деле, достаточно просто знать английский".

Хотя это, безусловно, является важной предпосылкой, есть также некоторые конкретные и практические методологии для управления ИИ.

Во-первых, нужно знать, что именно мы хотим, чтобы ИИ сгенерировал.

Возьмем, к примеру, западные игры-три в ряд (головоломки, где нужно убрать как минимум три одинаковых элемента), с которыми Бока хорошо знакома. В них обязательно есть фоновые изображения, узоры для удаления и значки, представляющие различные награды. Если добавить элементы декорирования для разблокировки различных сцен, то могут быть и предметы мебели, такие как диваны.

В этом случае, чтобы сгенерировать нужный предмет, достаточно просто написать его в промпте: сундук с сокровищами - это "treasure chest", ключ - это "key".

Далее, как определить художественный стиль?

Один из способов - изучать уроки и промпты других людей, накапливая некоторые специфические промпты.

Чтобы сгенерировать с помощью ИИ интерфейс для игры-три в ряд, Бока просмотрела множество видео на YouTube о дизайне UI-иконок с помощью ИИ.

Из них она узнала ключевой промпт: "multiple item spritedsheet", который используется для создания набора изображений, содержащих несколько связанных узоров. Это помогает сохранить согласованность стиля и угла иконок, избегая отклонений ИИ.

Другой способ - попросить ИИ подсказать нам, какие промпты использовать.

Снова возьмем пример с игрой-три в ряд: как написать промпт, если нам нужен эффект вида сверху для фонового изображения?

Подход Боки заключается в том, чтобы не спешить с написанием, а найти изображение, соответствующее нашим требованиям, загрузить его в Midjourney и использовать функцию Describe, чтобы получить промпт для этого изображения.

При этом не обязательно принимать все промпты, предложенные ИИ. Нам нужна только часть, связанная с ракурсом, например, "a top-down view of an interior room" (вид сверху на интерьер комнаты), которую можно включить в свой промпт.

Но одного хорошо написанного промпта недостаточно. Многие изображения, созданные ИИ, выглядят одинаково - яркие, глянцевые, лишенные индивидуальности, забывающиеся сразу после просмотра.

Бока объясняет, что это связано с природой моделей ИИ: их стиль рисования склонен к однообразию и массовости. Когда мы описываем сцену только словами, ИИ часто генерирует обычное, скучное изображение, соответствующее западной эстетике.

В то же время язык не является точным, и трудно напрямую создать стиль, который мы хотим. Когда мы говорим "китайский стиль", у тысячи людей может быть тысяча разных представлений, и ИИ не знает, какой именно мы имеем в виду.

Самое простое решение - использовать "подложку", дав ИИ четкое указание. В Midjourney можно загрузить соответствующее изображение и использовать функцию стилевой ссылки "--sref" для фиксации стиля рисования.

Можно сказать, что при неизменном промпте именно подложка напрямую определяет качество и стиль изображения. Чем более стилизована подложка, тем менее шаблонным будет сгенерированное изображение.

По опыту Боки, подложка не должна быть сложной, чем проще, тем прямолинейнее эффект. Использование простого сундука в западном мультипликационном стиле на белом фоне в качестве подложки может превратить обычную иконку в иконку, соответствующую стилю западных игр-три в ряд.

Весь этот опыт генерации изображений Бока получила из изучения уроков и личной практики.

Бока верит, что после множества попыток мы быстро разработаем свою собственную методологию работы с ИИ, будь то промпты или рабочий процесс, и станем в этом искусными, потому что, по ее мнению, "порог входа в ИИ на самом деле довольно низкий".

Не спешите принимать ИИ, но как только начнете, используйте каждую функцию по максимуму

В общей сложности Бока работает с генеративным ИИ всего восемь-девять месяцев, и наиболее часто использует только три инструмента: ChatGPT, Midjourney и KREA (программа для восстановления изображений в высоком разрешении), придерживаясь принципа "простота - ключ к успеху".

Midjourney появился еще в июле 2022 года, но когда Бока впервые увидела изображения, сгенерированные одним предложением, она не испытала сильного впечатления или шока, потому что качество было не очень хорошим.

В начале этого года инструменты для генерации изображений с помощью ИИ прошли несколько крупных обновлений, технология стала более зрелой, появилось больше контролируемых мелких функций. Постепенно Бока увидела коммерческий потенциал и решила, что пришло время отнестись к этому серьезно.

Что касается новых технологий, позиция Боки такова: учиться, безусловно, нужно, но можно немного подождать более зрелых продуктов, иначе будет потрачено много ненужных усилий. Когда действительно начинаешь использовать, нужно использовать все возможности по максимуму.

В Midjourney есть всего несколько часто обсуждаемых функций, но я считаю, что научиться хорошо использовать эти несколько функций - это процесс, который требует много практики.

ИИ все еще не полностью контролируем, генерация изображений - это повседневная практика, но всегда есть способы не дать ИИ слишком много свободы.

Бока использовала Midjourney для многих дизайнов IP и часто использует две его функции: функцию стилевой ссылки "--sref" для фиксации стиля рисования и функцию согласованности персонажей "--cref" для фиксации образа персонажа.

Таким образом, после нескольких генераций сходство между изображениями остается на уровне 80-90%.

Иногда изображения, сгенерированные ИИ, не полные. Например, мы хотим получить полноростовое изображение IP-персонажа, но результат ИИ не включает ноги.

Бока предлагает либо попробовать несколько раз, либо использовать функцию расширения изображения "Zoom Out" в Midjourney, чтобы расширить холст и позволить ИИ сгенерировать недостающие части.

Кроме того, ИИ часто генерирует мелкие, ненужные детали. Бока использует функцию редактирования определенных областей "Vary (Region)" в Midjourney для простого удаления.

AI переворот: 8 месяцев исследования новых моделей работы с ИИ бывшими сотрудниками крупных технологических компаний

Овладение одной специальностью в сочетании с разносторонними навыками - ключ к устойчивому развитию.

Все еще пишете промпты одним предложением? Вы тоже можете использовать ИИ для создания того, что хотите

Не спешите принимать ИИ, но как только начнете, используйте каждую функцию по максимуму