AI après la disruption : 8 mois d'exploration de nouveaux modes de travail avec l'IA par d'anciens employés de grandes entreprises

Maîtriser une spécialité tout en possédant des compétences variées est la clé d'un développement durable.

Vous écrivez encore des prompts en une seule phrase ? Vous pouvez aussi utiliser l'IA pour générer ce que vous voulez

Actuellement, Midjourney est l'outil de génération d'images IA le plus utilisé par Boka, qui a produit des illustrations de style français, des personnages 3D, des éléments graphiques pour des jeux de match-3, etc.

Votre IA, mon IA, elles semblent différentes. L'IA permet aux novices de créer une image avec une seule phrase, mais pour beaucoup, générer des œuvres spécifiques et de styles particuliers reste difficile.

Il y a essentiellement deux raisons à cela : l'IA n'est pas si contrôlable, et en même temps, nous ne comprenons peut-être pas l'IA, ne sachant pas par où commencer.

Quand j'ai demandé à Boka "Y a-t-il des astuces pour écrire des prompts ?", Boka a calmement répondu : "En fait, il suffit de connaître l'anglais".

C'est certainement un prérequis important, mais il existe aussi des méthodes concrètes et pratiques pour diriger l'IA.

Tout d'abord, il faut savoir ce que l'on veut que l'IA génère, n'est-ce pas ?

Prenons l'exemple des jeux de match-3 occidentaux que Boka connaît bien (des jeux de puzzle où il faut éliminer au moins trois éléments identiques). Ils contiennent certainement des images de fond, des motifs à éliminer, des icônes représentant diverses récompenses, et si on inclut le gameplay de décoration pour débloquer différentes scènes, il pourrait y avoir des meubles comme des canapés.

Dans ce cas, il suffit d'écrire directement dans le prompt ce que l'on veut générer : un coffre au trésor sera "treasure chest", une clé sera "key".

Ensuite, comment déterminer le style artistique ?

Une façon est d'apprendre à partir de tutoriels et des prompts d'autres personnes, et d'accumuler certains prompts spécifiques.

Pour générer l'interface d'un jeu de match-3 avec l'IA, Boka a regardé de nombreuses vidéos YouTube sur la conception d'icônes UI avec l'IA.

Elle y a appris un prompt clé : "multiple item spritedsheet", utilisé pour générer un ensemble d'images contenant plusieurs motifs connexes, ce qui permet de maintenir plus facilement la cohérence du style et de l'angle des icônes, évitant ainsi que l'IA ne dévie.

Une autre méthode consiste à demander à l'IA quels prompts utiliser.

Reprenons l'exemple du jeu de match-3 : si l'image de fond doit avoir un effet de vue du plafond, comment écrire le prompt ?

La méthode de Boka est de ne pas se précipiter à écrire, mais de trouver une image qui correspond à nos exigences, de la télécharger sur Midjourney, et d'utiliser sa fonction Describe pour obtenir le prompt de cette image.

En même temps, il n'est pas nécessaire d'accepter tous les prompts donnés par l'IA. Nous n'avons besoin que de la partie liée à l'angle de vue, "a top-down view of an interior room" (une vue plongeante d'une pièce intérieure), à intégrer dans notre propre prompt.

Mais bien écrire les prompts n'est toujours pas suffisant. De nombreuses images générées par l'IA ont un style similaire, lumineux, huileux, manquant de personnalité, qu'on oublie dès qu'on les voit.

Boka explique que c'est parce que la nature même des modèles d'IA détermine que leur style artistique tend à être convergent et grand public. En ne s'appuyant que sur une description linguistique d'une scène, l'IA génère souvent une image ordinaire, ennuyeuse, conforme à l'esthétique occidentale.

De plus, le langage n'est pas précis, il est difficile de générer directement le style que nous voulons. Quand on parle de "style chinois", mille personnes peuvent avoir mille réponses différentes en tête, et l'IA ne sait pas non plus lequel nous voulons.

La solution la plus simple est d'utiliser une "image de référence", donnant à l'IA une indication claire. Sur Midjourney, en téléchargeant une image pertinente et en utilisant la fonction de référence de style "--sref", on peut ancrer le style artistique.

On peut dire que lorsque le prompt reste inchangé, l'image de référence détermine directement la qualité et le style de l'image générée. Plus l'image de référence choisie a de style, plus l'image générée sera originale.

Selon l'expérience de Boka, l'image de référence n'a pas besoin d'être complexe, plus elle est simple, plus l'effet est direct. En utilisant une boîte de style cartoon occidental avec un fond blanc comme référence, on peut transformer une icône ordinaire en une icône correspondant au style des jeux de match-3 occidentaux.

Toutes ces expériences de génération d'images, Boka les a acquises en étudiant des tutoriels et par la pratique personnelle.

Boka croit qu'avec suffisamment d'essais, que ce soit pour les prompts ou le flux de travail, nous pouvons rapidement développer notre propre méthodologie IA et devenir compétents, car elle pense que "l'IA a en fait un seuil d'entrée assez bas".

Pas besoin de se précipiter pour adopter l'IA, mais une fois qu'on s'y met, il faut bien utiliser chaque fonction

Tout compte fait, Boka n'utilise l'IA générative que depuis huit ou neuf mois, et n'utilise régulièrement que trois outils : ChatGPT, Midjourney et KREA (un logiciel de restauration haute définition), avec une attitude très "simple".

Midjourney est sorti en juillet 2022, mais quand elle a vu les images générées par une seule phrase auparavant, Boka n'a pas ressenti de fort sentiment d'impact, car la qualité n'était pas très bonne.

Au début de cette année, les outils de génération d'images IA ont connu plusieurs mises à jour majeures, la technologie est devenue plus mature, avec plus de petites fonctions contrôlables, ce qui a progressivement permis à Boka de voir le potentiel commercial. C'est alors qu'elle a pensé qu'il était temps de prendre cela au sérieux.

Pour les nouvelles technologies, l'attitude de Boka est qu'il faut certainement les apprendre, mais on peut attendre un peu des produits plus matures, sinon on dépenserait beaucoup d'énergie inutilement. Une fois qu'on s'y met vraiment, il faut alors en tirer le meilleur parti.

Midjourney n'a que quelques fonctions bien connues, mais je pense que bien utiliser ces quelques fonctions est aussi un processus qui nécessite beaucoup de pratique.

L'IA n'est toujours pas totalement contrôlable, générer des images est une routine, mais il y a toujours des solutions pour empêcher l'IA de trop s'emballer.

Boka a fait beaucoup de design de propriété intellectuelle avec Midjourney, utilisant souvent deux de ses fonctions : la fonction de référence de style "--sref" pour ancrer le style artistique, et la fonction de cohérence des personnages "--cref" pour ancrer l'apparence des personnages.

Ainsi, après plusieurs générations, la similitude entre les images reste entre 80 et 90%.

Parfois, les images générées par l'IA ne sont pas complètes. Par exemple, nous voulons obtenir une image de personnage en pied, mais le résultat de l'IA n'inclut pas les pieds.

Boka suggère soit d'essayer plusieurs fois, soit d'utiliser la fonction d'extension d'image "Zoom Out" de Midjourney pour élargir le cadre et laisser l'IA générer les parties manquantes.

De plus, l'IA génère souvent des éléments fragmentés et non nécessaires. Boka utilise la fonction d'édition de zones spécifiques "Vary (Region)" de Midjourney pour les supprimer simplement.