¿Todavía escribes prompts de una sola frase? Tú también puedes usar IA para generar lo que quieres
Actualmente, Midjourney es la herramienta de generación de imágenes por IA más utilizada por Boka, que ha producido ilustraciones de estilo francés, personajes 3D y recursos artísticos para juegos de match-3 bajo su dirección.
Tu IA, mi IA, parecen diferentes. La IA permite a los novatos crear una imagen con una sola frase, pero generar obras específicas y de estilos particulares sigue siendo difícil para muchas personas.
Hay básicamente dos razones: la IA no es tan controlable y es posible que no entendamos la IA, sin saber por dónde empezar.
Cuando le pregunté a Boka "¿Hay algún truco para escribir prompts?", Boka respondió con calma: "En realidad, solo necesitas saber inglés".
Aunque esto es ciertamente un gran requisito previo, también hay algunos métodos concretos y viables para hacer que la IA haga exactamente lo que queremos.
Primero, ¿qué queremos que genere la IA?
Tomando como ejemplo los juegos de match-3 occidentales con los que Boka está familiarizada (juegos de rompecabezas donde se eliminan al menos tres elementos iguales), definitivamente tendrán imágenes de fondo, patrones para eliminar, iconos que representan varias recompensas, y si se combina con la mecánica de decoración para desbloquear diferentes escenarios, también puede haber muebles como sofás.
En este caso, simplemente intenta escribir en el prompt lo que necesitas generar: un cofre del tesoro es "treasure chest", una llave es "key".
A continuación, ¿cómo determinar el estilo artístico?
Una forma es aprender de tutoriales y prompts de otros, y acumular algunos prompts específicos.
Para generar interfaces de juegos match-3 con IA, Boka vio muchos videos de YouTube sobre diseño de iconos de UI con IA.
De ellos, aprendió un prompt clave: "multiple item spritedsheet", que se usa para generar un conjunto de imágenes que contienen múltiples patrones relacionados, lo que facilita mantener la consistencia en el estilo y ángulo de los iconos, evitando que la IA se desvíe.
Otra forma es pedirle a la IA que nos diga qué prompts usar.
Volviendo al ejemplo del juego match-3, si la imagen de fondo necesita lograr un efecto de vista superior desde el techo, ¿cómo escribimos el prompt?
El método de Boka es no apresurarse a escribir, sino encontrar una imagen que cumpla con nuestros requisitos, subirla a Midjourney y dejar que su función Describe proporcione el prompt para esa imagen.
Al mismo tiempo, no es necesario aceptar todos los prompts proporcionados por la IA; solo necesitamos la parte relacionada con la perspectiva, "a top-down view of an interior room" (una vista superior de una habitación interior), e incorporarla a nuestro propio prompt.
Pero escribir buenos prompts aún no es suficiente. Muchas imágenes de IA tienen un aspecto similar: brillantes, aceitosas, carentes de personalidad, fáciles de olvidar.
Boka explica que esto se debe a que la naturaleza esencial de los modelos de IA determina que su estilo artístico tiende a ser convergente y popular. Cuando solo se describe una escena con lenguaje, la IA a menudo genera una imagen ordinaria, aburrida y que se ajusta a la estética occidental.
Al mismo tiempo, el lenguaje tampoco es preciso y es difícil generar directamente el estilo que queremos. Cuando se habla de "estilo chino", mil personas pueden tener mil respuestas diferentes en mente, y la IA tampoco entiende qué tipo queremos.
La solución más simple es usar "imágenes de referencia", dando a la IA una indicación clara. En Midjourney, subir imágenes relevantes y usar la función de referencia de estilo "--sref" puede anclar el estilo artístico.
Se puede decir que cuando el prompt permanece sin cambios, la imagen de referencia determina directamente la calidad y el estilo de la imagen generada. Cuanto más estilizada sea la imagen de referencia elegida, menos convencional será la imagen generada.
Según la experiencia de Boka, la imagen de referencia no necesita ser compleja; cuanto más simple, más directo será el efecto. Usar una caja de estilo caricaturesco occidental con fondo blanco como referencia puede transformar un icono ordinario en uno que se ajuste al estilo de los juegos match-3 occidentales.
Estas experiencias en la generación de imágenes provienen del aprendizaje de tutoriales y la práctica personal de Boka.
Boka cree que con suficiente práctica, ya sea con prompts o flujos de trabajo, pronto podremos desarrollar nuestra propia metodología de IA y volvernos hábiles en ella, porque siente que "la IA en realidad tiene un umbral bastante bajo".
No te apresures a abrazar la IA, pero una vez que la domines, usa bien cada función
En total, Boka solo lleva ocho o nueve meses usando IA generativa, y sus herramientas más utilizadas son solo tres: ChatGPT, Midjourney y KREA (un software de restauración de alta definición), con una actitud muy "simple y directa".
Midjourney se lanzó en julio de 2022, pero cuando Boka vio las imágenes generadas con una sola frase, no tuvo una sensación fuerte de impacto, porque la calidad no era muy buena.
A principios de este año, las herramientas de generación de imágenes por IA tuvieron varias actualizaciones importantes, la tecnología se volvió más madura y había más funciones controlables, lo que gradualmente hizo que Boka viera la posibilidad de comercialización. Fue entonces cuando sintió que era hora de tomarlo en serio.
Para las nuevas tecnologías, la actitud de Boka es que definitivamente hay que aprenderlas, pero se puede esperar un poco más a productos más maduros, de lo contrario se gastaría mucha energía innecesaria. Una vez que realmente las dominas, debes aprovecharlas al máximo.
Midjourney tiene las mismas funciones conocidas, pero creo que usar bien estas funciones también es un proceso que requiere mucha práctica.
La IA sigue sin ser completamente controlable, generar imágenes es una tarea diaria, pero siempre hay algunas soluciones para evitar que la IA se salga demasiado de control.
Boka ha hecho muchos diseños de IP con Midjourney, y a menudo usa dos de sus funciones: la función de referencia de estilo "--sref" para anclar el estilo artístico, y la función de consistencia de personajes "--cref" para anclar la apariencia del personaje.
De esta manera, después de múltiples generaciones, la similitud entre las imágenes se mantiene entre el 80 y el 90%.
A veces, las imágenes generadas por la IA no están completas. Por ejemplo, queremos obtener una imagen de cuerpo completo de un IP, pero el resultado de la IA no incluye los pies.
Boka sugiere intentarlo varias veces o usar la función de expansión de imagen "Zoom Out" de Midjourney para ampliar el marco y hacer que la IA genere las partes que faltaban originalmente.
Además, la IA a menudo genera cosas fragmentadas e innecesarias. Boka usa la función de edición de áreas específicas "Vary (Region)" de Midjourney para eliminarlas de manera simple.