AI-Umwälzung: Ehemalige Mitarbeiter großer Technologieunternehmen erkunden 8 Monate lang neue KI-Arbeitsmethoden

Immer noch ein Satz für Prompts? Du kannst auch KI nutzen, um zu erstellen, was du willst

Derzeit ist Midjourney Bokas am häufigsten verwendetes KI-Bildgenerierungstool, mit dem sie französische Illustrationen, 3D-IP-Charaktere und Grafiken für Match-3-Spiele erstellt hat.

Deine KI, meine KI, sie scheinen unterschiedlich zu sein. KI ermöglicht es auch Laien, mit einem Satz ein Bild zu erstellen, aber für viele ist es immer noch schwierig, spezifische Werke in bestimmten Stilen zu generieren.

Es gibt im Wesentlichen zwei Gründe dafür: KI ist nicht so kontrollierbar, und gleichzeitig verstehen wir KI möglicherweise nicht und finden keinen Zugang dazu.

Als ich Boka fragte: "Gibt es Tricks beim Schreiben von Prompts?", antwortete Boka gelassen: "Eigentlich reicht es, Englisch zu können."

Das ist zwar eine große Voraussetzung, aber es gibt auch einige konkrete und praktikable Methoden, um die KI gezielt zu steuern.

Zunächst einmal muss man wissen, was die KI generieren soll, richtig?

Nehmen wir als Beispiel die westlichen Match-3-Spiele (Puzzlespiele, bei denen mindestens drei gleiche Elemente entfernt werden müssen), mit denen Boka vertraut ist. Darin gibt es sicherlich Hintergrundbilder, Muster zum Entfernen und Symbole für verschiedene Belohnungen. Wenn man das mit dem Gameplay des Freischaltens verschiedener Szenen kombiniert, könnte es auch Möbel wie Sofas geben.

In diesem Fall kann man einfach direkt in den Prompt schreiben, welche Gegenstände generiert werden sollen. Eine Schatztruhe ist "treasure chest", ein Schlüssel ist "key".

Wie bestimmt man als Nächstes den künstlerischen Stil?

Eine Möglichkeit besteht darin, durch das Studium von Tutorials und den Prompts anderer Leute einige spezifische Prompts zu sammeln.

Um mit KI Benutzeroberflächen für Match-3-Spiele zu generieren, hat Boka viele YouTube-Videos über KI-gestütztes UI-Icon-Design angesehen.

Dabei lernte sie einen wichtigen Prompt: "multiple item spritedsheet", mit dem man eine Sammlung von Bildern mit mehreren verwandten Mustern generieren kann. So lässt sich der Stil und Winkel der Icons leichter konsistent halten und verhindert, dass die KI vom Kurs abkommt.

Eine andere Möglichkeit besteht darin, die KI zu fragen, welche Prompts wir verwenden sollen.

Nehmen wir wieder das Beispiel des Match-3-Spiels: Wie schreibt man einen Prompt, wenn das Hintergrundbild eine Draufsicht von der Decke aus haben soll?

Bokas Ansatz ist, nicht sofort zu schreiben, sondern ein Bild zu finden, das unseren Anforderungen entspricht, es in Midjourney hochzuladen und die Describe-Funktion den Prompt für dieses Bild generieren zu lassen.

Gleichzeitig müssen wir nicht alle von der KI vorgeschlagenen Prompts übernehmen. Wir brauchen nur den Teil, der sich auf die Perspektive bezieht: "a top-down view of an interior room" (eine Draufsicht auf einen Innenraum) und kombinieren ihn mit unseren eigenen Prompts.

Aber gute Prompts allein reichen nicht aus. Viele KI-generierte Bilder sehen ähnlich aus - hell, ölig und ohne Persönlichkeit, so dass man sie schnell wieder vergisst.

Boka erklärt, dass dies daran liegt, dass die Natur der KI-Modelle dazu führt, dass ihr Stil konvergent und mainstream ist. Wenn man eine Szene nur mit Sprache beschreibt, generiert die KI oft ein gewöhnliches, langweiliges Bild, das der westlichen Ästhetik entspricht.

Gleichzeitig ist Sprache nicht präzise genug, um direkt den gewünschten Stil zu erzeugen. Wenn man "chinesischer Stil" sagt, haben tausend Menschen vielleicht tausend verschiedene Antworten im Kopf, und die KI versteht auch nicht, welchen wir wollen.

Die einfachste Lösung ist das "Image Prompting" - der KI ein klares Beispiel zu geben. Bei Midjourney kann man ein relevantes Bild hochladen und die Stilreferenzfunktion "--sref" verwenden, um den Kunststil zu verankern.

Man kann sagen, dass bei gleichbleibenden Textprompts das Referenzbild direkt die Qualität und den Stil des generierten Bildes bestimmt. Je stilvoller das Referenzbild gewählt wird, desto weniger klischeehaft wird das generierte Bild.

Nach Bokas Erfahrung muss das Referenzbild nicht komplex sein; je einfacher, desto direkter ist der Effekt. Wenn man eine Kiste im westlichen Cartoon-Stil mit leerem Hintergrund als Referenz verwendet, kann man ein gewöhnliches Icon in ein Icon verwandeln, das dem Stil westlicher Match-3-Spiele entspricht.

Diese Erfahrungen bei der Bildgenerierung hat Boka durch das Studium von Tutorials und praktische Anwendung gesammelt.

Boka glaubt, dass man mit genügend Versuchen schnell seine eigene KI-Methodik für Prompts und Workflows entwickeln und darin geschickt werden kann, denn sie meint: "KI hat eigentlich eine ziemlich niedrige Einstiegshürde."

Keine Eile, KI zu umarmen, aber sobald man anfängt, sollte man jede Funktion gut nutzen

Alles in allem beschäftigt sich Boka erst seit acht oder neun Monaten mit generativer KI und verwendet am häufigsten nur drei Tools: ChatGPT, Midjourney und KREA (eine Software zur Hochauflösungsverbesserung). Ihre Einstellung ist sehr "der große Weg ist einfach".

Midjourney wurde bereits im Juli 2022 veröffentlicht, aber als Boka die mit einem Satz generierten Bilder sah, hatte sie kein starkes Gefühl des Schocks, da die Qualität nicht besonders gut war.

Anfang dieses Jahres gab es mehrere große Updates für KI-Bildgenerierungstools. Die Technologie wurde ausgereifter, es gab mehr kontrollierbare Funktionen, und Boka sah allmählich das kommerzielle Potenzial. Erst da dachte sie, es sei Zeit, die Sache ernst zu nehmen.

Bokas Einstellung zu neuen Technologien ist, dass man sie definitiv lernen muss, aber man kann auch auf ausgereifte Produkte warten, sonst verschwendet man viel unnötige Energie. Wenn man dann wirklich anfängt, sollte man sie voll ausnutzen.

Midjourney hat immer wieder die gleichen Funktionen, aber ich denke, diese Funktionen gut zu nutzen, ist auch ein Prozess, der viel Übung erfordert.

KI ist immer noch nicht vollständig kontrollierbar, und das Generieren von Bildern ist Alltag, aber es gibt immer Lösungen, um die KI nicht zu sehr ihre eigenen Wege gehen zu lassen.

Boka hat mit Midjourney viele IP-Designs erstellt und verwendet häufig zwei Funktionen: die Stilreferenzfunktion "--sref" zur Verankerung des Kunststils und die Charakterkonsistenzfunktion "--cref" zur Verankerung der Charaktere.

Auf diese Weise bleibt die Ähnlichkeit zwischen den Bildern auch nach mehreren Generationen bei 80 bis 90%.

Manchmal sind die von der KI generierten Bilder nicht vollständig. Zum Beispiel möchten wir eine Ganzkörper-IP-Figur erhalten, aber das Ergebnis der KI hat keine Füße.

Boka empfiehlt, entweder mehrere Versuche zu machen oder die Zoom-Out-Funktion von Midjourney zu verwenden, um den Bildausschnitt zu erweitern und die KI die fehlenden Teile generieren zu lassen.

Außerdem generiert die KI oft kleine, unerwünschte Dinge. Boka verwendet die Funktion "Vary (Region)" von Midjourney, um bestimmte Bereiche zu bearbeiten und einfache Löschungen vorzunehmen.

AI-Umwälzung: Ehemalige Mitarbeiter großer Technologieunternehmen erkunden 8 Monate lang neue KI-Arbeitsmethoden

Meisterschaft in einer Fachrichtung und vielseitige Fähigkeiten sind der Schlüssel zu nachhaltiger Entwicklung.

Immer noch ein Satz für Prompts? Du kannst auch KI nutzen, um zu erstellen, was du willst

Keine Eile, KI zu umarmen, aber sobald man anfängt, sollte man jede Funktion gut nutzen

Midjourney hat immer wieder die gleichen Funktionen, aber ich denke, diese Funktionen gut zu nutzen, ist auch ein Prozess, der viel Übung erfordert.