Ainda escrevendo prompts em uma frase? Você também pode usar IA para gerar o que deseja
Atualmente, Midjourney é a ferramenta de geração de imagens por IA mais usada por Boka, produzindo ilustrações em estilo francês, personagens 3D e recursos artísticos para jogos match-3.
Sua IA, minha IA, parecem diferentes. A IA permite que leigos criem uma imagem com uma frase, mas gerar obras específicas e com estilos particulares ainda é difícil para muitas pessoas.
Há basicamente duas razões: a IA não é tão controlável e talvez não entendamos a IA, não sabendo por onde começar.
Quando perguntei a Boka "Há algum truque para escrever prompts?", ela calmamente respondeu: "Na verdade, basta saber inglês".
Embora isso seja um grande pré-requisito, há também alguns métodos específicos e práticos para fazer a IA fazer exatamente o que queremos.
Primeiro, precisamos saber o que queremos que a IA gere, certo?
Tomando como exemplo os jogos match-3 ocidentais com os quais Boka está familiarizada (jogos de quebra-cabeça onde você elimina pelo menos três elementos iguais), certamente haverá imagens de fundo, padrões para eliminar, ícones representando várias recompensas e, se combinados com mecânicas de decoração para desbloquear diferentes cenários, pode haver móveis como sofás.
Nesse caso, basta escrever no prompt o que você precisa gerar: um baú do tesouro é "treasure chest", uma chave é "key".
Em seguida, como determinar o estilo artístico?
Uma maneira é aprender com tutoriais e prompts de outras pessoas, acumulando alguns prompts específicos.
Para gerar interfaces de jogos match-3 com IA, Boka assistiu a muitos vídeos no YouTube sobre design de ícones de UI com IA.
Desses vídeos, ela aprendeu um prompt-chave: "multiple item spritedsheet", usado para gerar conjuntos de imagens contendo vários padrões relacionados, tornando mais fácil manter a consistência de estilo e ângulo dos ícones, evitando que a IA se desvie.
Outra maneira é pedir à IA para nos dizer quais prompts usar.
Voltando ao exemplo do jogo match-3, se precisarmos de uma imagem de fundo com uma vista de cima para baixo do teto, como escrever o prompt?
A abordagem de Boka é não se apressar em escrever, mas encontrar uma imagem que atenda aos nossos requisitos, enviá-la para o Midjourney e usar sua função Describe para fornecer o prompt para essa imagem.
Ao mesmo tempo, não precisamos aceitar todos os prompts fornecidos pela IA. Precisamos apenas da parte relacionada ao ângulo de visão, "a top-down view of an interior room" (uma vista de cima de um cômodo interno), e incorporá-la em nosso próprio prompt.
Mas apenas escrever bons prompts ainda não é suficiente. Muitas imagens de IA têm um estilo semelhante - brilhante, oleoso, sem personalidade - que as torna facilmente esquecíveis.
Boka explica que isso se deve à natureza essencial dos modelos de IA, que tendem a convergir para estilos populares e generalizados. Apenas descrevendo uma cena com linguagem, a IA geralmente produz uma imagem comum, chata e alinhada com a estética ocidental.
Além disso, a linguagem não é precisa e é difícil gerar diretamente o estilo que queremos. Quando falamos em "estilo chinês", mil pessoas podem ter mil respostas diferentes em mente, e a IA não entende qual queremos.
A solução mais simples é usar uma "imagem de referência", dando à IA uma indicação clara. No Midjourney, você pode fazer upload de imagens relevantes e usar a função de referência de estilo "--sref" para ancorar o estilo artístico.
Pode-se dizer que, mantendo o prompt inalterado, a imagem de referência determina diretamente a qualidade e o estilo da imagem gerada. Quanto mais estilizada for a imagem de referência escolhida, mais única será a imagem gerada.
De acordo com a experiência de Boka, a imagem de referência não precisa ser complexa; quanto mais simples, mais direto será o efeito. Usar uma caixa em estilo cartoon ocidental com fundo em branco como referência pode transformar ícones comuns em ícones que se adequam ao estilo dos jogos match-3 ocidentais.
Todas essas experiências em geração de imagens vêm do aprendizado de tutoriais e da prática pessoal de Boka.
Boka acredita que, com muita prática, seja com prompts ou fluxos de trabalho, logo poderemos desenvolver nossa própria metodologia de IA e nos tornarmos proficientes, pois ela sente que "a IA na verdade tem uma barreira de entrada bastante baixa".
Não se apresse em abraçar a IA, mas uma vez que comece, use bem cada função
No total, Boka tem usado IA generativa por apenas oito ou nove meses, e suas ferramentas mais usadas são apenas três: ChatGPT, Midjourney e KREA (um software de restauração em alta definição), com uma atitude de "simplicidade é o melhor caminho".
O Midjourney foi lançado em julho de 2022, mas quando Boka viu imagens geradas com uma frase, ela não ficou particularmente impressionada ou impactada, pois a qualidade não era muito boa.
No início deste ano, houve várias grandes atualizações nas ferramentas de geração de imagens por IA, a tecnologia ficou mais madura, com mais pequenas funções controláveis, o que gradualmente fez Boka ver o potencial comercial. Foi então que ela sentiu que era hora de levar isso a sério.
Em relação às novas tecnologias, a atitude de Boka é que certamente precisamos aprender, mas podemos esperar um pouco por produtos mais maduros, caso contrário, gastaremos muita energia desnecessária. Quando realmente começamos a usar, devemos aproveitar ao máximo.
O Midjourney tem apenas algumas funções básicas, mas acredito que usar bem essas funções é um processo que requer muita prática.
A IA ainda não é totalmente controlável, gerar imagens é uma tarefa diária, mas sempre há algumas soluções para evitar que a IA seja muito livre.
Boka usou o Midjourney para fazer muitos designs de IP e frequentemente usa duas de suas funções: a função de referência de estilo "--sref" para ancorar o estilo artístico, e a função de consistência de personagem "--cref" para ancorar a aparência do personagem.
Dessa forma, após várias gerações, a similaridade entre as imagens ainda se mantém entre 80 e 90%.
Às vezes, as imagens geradas pela IA não são completas. Por exemplo, queremos obter uma imagem de corpo inteiro de um personagem IP, mas o resultado da IA não inclui os pés.
Boka sugere tentar várias vezes ou usar a função de expansão de imagem "Zoom Out" do Midjourney para expandir o quadro, fazendo a IA gerar as partes que estavam faltando originalmente.
Além disso, a IA frequentemente gera coisas fragmentadas e desnecessárias. Boka usa a função de edição de regiões específicas "Vary (Region)" do Midjourney para fazer remoções simples.