Imaginez qu'on vous demande de dessiner "du cola glacé dans une tasse à thé". Malgré la combinaison inhabituelle, vous dessineriez naturellement d'abord une tasse à thé, puis ajouteriez des glaçons et du cola. Mais que se passe-t-il lorsque nous demandons aux artistes IA de faire de même ? Nous avons expérimenté cela en octobre 2023, lorsque les modèles de génération d'images IA à grande échelle commençaient à émerger, et à nouveau en juillet 2024 en utilisant des modèles de pointe.
Même les artistes IA les plus avancés comme Dall-E 3 ont du mal à conceptualiser "du cola glacé dans une tasse à thé", dessinant souvent par défaut un verre transparent rempli de cola glacé à la place. Ce problème est connu sous le nom de désalignement texte-image dans le milieu universitaire. Un article récent intitulé "Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models" du groupe de recherche du professeur Dequan Wang à l'Université Jiao Tong de Shanghai explore une nouvelle branche de ce problème. L'article sera publié lors de la 18e Conférence européenne sur la vision par ordinateur (ECCV) en octobre 2024.
Lien de l'article Lien du projet
Contrairement aux problèmes de désalignement traditionnels où l'accent est mis sur l'influence mutuelle de deux concepts dans une paire, l'exemple du "cola glacé dans une tasse à thé" implique une variable cachée - le "verre transparent" - qui apparaît dans l'image bien qu'il ne soit pas mentionné dans l'invite textuelle. Ce phénomène est appelé Désalignement de Concept Latent (LC-Mis) dans l'article.
Pour explorer pourquoi la tasse à thé disparaît des images générées, les chercheurs ont conçu un système utilisant des Grands Modèles de Langage (LLM) pour collecter rapidement des paires de concepts similaires à "cola glacé dans une tasse à thé". Ils ont expliqué la logique derrière le problème aux LLM, l'ont catégorisé, et ont fait générer aux LLM plus de catégories et de paires de concepts suivant une logique similaire. Les images générées ont ensuite été évaluées manuellement sur une échelle de 1 à 5, 5 indiquant un échec complet à générer des images correctes.
Pour faire réapparaître la tasse à thé manquante, les chercheurs ont proposé une méthode appelée Mixture of Concept Experts (MoCE). Cette approche incorpore le processus de dessin séquentiel humain dans le processus d'échantillonnage multi-étapes des modèles de diffusion. Les LLM suggèrent d'abord de dessiner une tasse à thé, qui est entrée séparément dans le modèle de diffusion pour T-N étapes d'échantillonnage. L'invite complète "cola glacé dans une tasse à thé" est ensuite fournie pour les N étapes restantes pour générer l'image finale. La valeur de N est cruciale et est ajustée en utilisant une recherche binaire basée sur les scores d'alignement entre l'image et les concepts de tasse à thé et de cola glacé.
Des expériences ont été menées en utilisant MoCE et divers modèles de référence sur l'ensemble de données collecté. Des visualisations de l'exemple "cola glacé dans une tasse à thé" et des évaluations d'experts humains sur l'ensemble du jeu de données ont été présentées. MoCE a considérablement réduit la proportion de paires de concepts LC-Mis de niveau 5 par rapport aux modèles de référence, surpassant même Dall-E 3 (version d'octobre 2023) dans une certaine mesure.
Les chercheurs ont également souligné les limites des métriques d'évaluation automatisées existantes pour le problème du "cola glacé dans une tasse à thé". Ils ont comparé les images générées par MoCE avec des images soigneusement sélectionnées de tasses en verre transparent avec des anses, qui ressemblent à des tasses à thé mais n'en sont techniquement pas en raison de leur matériau. Les métriques populaires comme Clipscore et Image-Reward ont donné des scores plus élevés au cola glacé dans des verres transparents que dans des tasses à thé, indiquant un biais inhérent à associer le cola à des contenants en verre.
En conclusion, cette étude introduit une nouvelle branche de problèmes de désalignement texte-image - le Désalignement de Concept Latent (LC-Mis). Les chercheurs ont développé un système pour collecter des paires de concepts LC-Mis, proposé la méthode MoCE pour atténuer le problème, et démontré les limites des métriques d'évaluation actuelles de l'alignement texte-image. Les travaux futurs continueront à faire progresser les technologies d'IA générative pour mieux répondre aux besoins et aux attentes humains.