Stellen Sie sich vor, Sie würden gebeten, "Eiscola in einer Teetasse" zu zeichnen. Trotz der ungewöhnlichen Kombination würden Sie natürlich zuerst eine Teetasse zeichnen und dann Eiswürfel und Cola hinzufügen. Aber was passiert, wenn wir KI-Künstler bitten, dasselbe zu tun? Wir experimentierten damit im Oktober 2023, als großskalige KI-Bildgenerierungsmodelle gerade aufkamen, und erneut im Juli 2024 mit modernsten Modellen.
Selbst die fortschrittlichsten KI-Künstler wie Dall-E 3 haben Schwierigkeiten, "Eiscola in einer Teetasse" zu konzeptualisieren und zeichnen stattdessen oft ein transparentes Glas gefüllt mit Eiscola. Dieses Problem ist in der Wissenschaft als Text-Bild-Fehlausrichtung bekannt. Ein kürzlich erschienenes Paper mit dem Titel "Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models" der Forschungsgruppe von Professor Dequan Wang an der Shanghai Jiao Tong Universität untersucht einen neuen Zweig dieses Problems. Das Paper wird auf der 18. European Conference on Computer Vision (ECCV) im Oktober 2024 veröffentlicht.
Im Gegensatz zu herkömmlichen Fehlausrichtungsproblemen, bei denen der Fokus auf der gegenseitigen Beeinflussung zweier Konzepte in einem Paar liegt, beinhaltet das Beispiel "Eiscola in einer Teetasse" eine versteckte Variable - das "transparente Glas" - das im Bild erscheint, obwohl es in der Textaufforderung nicht erwähnt wird. Dieses Phänomen wird im Paper als Latent Concept Misalignment (LC-Mis) bezeichnet.
Um zu untersuchen, warum die Teetasse aus den generierten Bildern verschwindet, entwickelten die Forscher ein System, das Large Language Models (LLMs) nutzt, um schnell Konzeptpaare ähnlich wie "Eiscola in einer Teetasse" zu sammeln. Sie erklärten den LLMs die Logik hinter dem Problem, kategorisierten es und ließen die LLMs weitere Kategorien und Konzeptpaare nach ähnlicher Logik generieren. Die generierten Bilder wurden dann manuell auf einer Skala von 1 bis 5 bewertet, wobei 5 ein vollständiges Scheitern bei der Generierung korrekter Bilder anzeigt.
Um die fehlende Teetasse zurückzubringen, schlugen die Forscher eine Methode namens Mixture of Concept Experts (MoCE) vor. Dieser Ansatz integriert den menschenähnlichen sequentiellen Zeichenprozess in den mehrstufigen Sampling-Prozess von Diffusionsmodellen. LLMs schlagen zunächst vor, eine Teetasse zu zeichnen, die für T-N Sampling-Schritte separat in das Diffusionsmodell eingegeben wird. Der vollständige Prompt "Eiscola in einer Teetasse" wird dann für die verbleibenden N Schritte bereitgestellt, um das endgültige Bild zu generieren. Der Wert von N ist entscheidend und wird mittels binärer Suche basierend auf den Alignment-Scores zwischen dem Bild und den Konzepten von Teetasse und Eiscola angepasst.
Experimente wurden mit MoCE und verschiedenen Baseline-Modellen auf dem gesammelten Datensatz durchgeführt. Visualisierungen des Beispiels "Eiscola in einer Teetasse" und Bewertungen menschlicher Experten über den gesamten Datensatz wurden präsentiert. MoCE reduzierte den Anteil der Level-5-LC-Mis-Konzeptpaare im Vergleich zu Baseline-Modellen deutlich und übertraf sogar in gewissem Maße Dall-E 3 (Version Oktober 2023).
Die Forscher hoben auch die Einschränkungen bestehender automatisierter Evaluierungsmetriken für das Problem "Eiscola in einer Teetasse" hervor. Sie verglichen MoCE-generierte Bilder mit sorgfältig ausgewählten Bildern von transparenten Glastassen mit Henkeln, die Teetassen ähneln, aber aufgrund ihres Materials technisch gesehen keine Teetassen sind. Beliebte Metriken wie Clipscore und Image-Reward gaben Eiscola in transparenten Gläsern höhere Bewertungen als in Teetassen, was auf eine inhärente Voreingenommenheit hinweist, Cola mit Glasbehältern zu assoziieren.
Zusammenfassend führt diese Studie einen neuen Zweig von Text-Bild-Fehlausrichtungsproblemen ein - Latent Concept Misalignment (LC-Mis). Die Forscher entwickelten ein System zur Sammlung von LC-Mis-Konzeptpaaren, schlugen die MoCE-Methode zur Linderung des Problems vor und zeigten die Grenzen aktueller Text-Bild-Alignment-Evaluierungsmetriken auf. Zukünftige Arbeiten werden die generativen KI-Technologien weiter vorantreiben, um menschliche Bedürfnisse und Erwartungen besser zu erfüllen.