Imagina que te piden dibujar "cola helada en una taza de té". A pesar de la combinación inusual, naturalmente dibujarías primero una taza de té, luego agregarías cubitos de hielo y cola. Pero, ¿qué sucede cuando pedimos a los artistas de IA que hagan lo mismo? Experimentamos con esto en octubre de 2023 cuando los modelos de generación de imágenes de IA a gran escala estaban emergiendo, y nuevamente en julio de 2024 utilizando modelos de vanguardia.
Incluso los artistas de IA más avanzados como Dall-E 3 tienen dificultades para conceptualizar "cola helada en una taza de té", a menudo optando por dibujar un vaso transparente lleno de cola helada en su lugar. Este problema se conoce como desalineación texto-imagen en el ámbito académico. Un artículo reciente titulado "Perdido en la traducción: Desalineación de conceptos latentes en modelos de difusión de texto a imagen" del grupo de investigación del profesor Dequan Wang en la Universidad Jiao Tong de Shanghai explora una nueva rama de este problema. El artículo será publicado en la 18ª Conferencia Europea sobre Visión por Computadora (ECCV) en octubre de 2024.
Enlace del artículo Enlace del proyecto
A diferencia de los problemas de desalineación tradicionales donde el enfoque está en la influencia mutua de dos conceptos en un par, el ejemplo de "cola helada en una taza de té" involucra una variable oculta - el "vaso transparente" - que aparece en la imagen a pesar de no ser mencionado en el texto de entrada. Este fenómeno se denomina Desalineación de Conceptos Latentes (LC-Mis) en el artículo.
Para explorar por qué la taza de té desaparece de las imágenes generadas, los investigadores diseñaron un sistema utilizando Modelos de Lenguaje Grande (LLMs) para recopilar rápidamente pares de conceptos similares a "cola helada en una taza de té". Explicaron la lógica detrás del problema a los LLMs, lo categorizaron e hicieron que los LLMs generaran más categorías y pares de conceptos siguiendo una lógica similar. Las imágenes generadas fueron luego evaluadas manualmente en una escala de 1 a 5, donde 5 indica un fracaso completo en generar imágenes correctas.
Para recuperar la taza de té faltante, los investigadores propusieron un método llamado Mezcla de Expertos en Conceptos (MoCE). Este enfoque incorpora el proceso de dibujo secuencial similar al humano en el proceso de muestreo de múltiples pasos de los modelos de difusión. Los LLMs primero sugieren dibujar una taza de té, que se ingresa por separado en el modelo de difusión para T-N pasos de muestreo. Luego se proporciona el texto completo "cola helada en una taza de té" para los N pasos restantes para generar la imagen final. El valor de N es crucial y se ajusta mediante búsqueda binaria basada en las puntuaciones de alineación entre la imagen y los conceptos de taza de té y cola helada.
Se realizaron experimentos utilizando MoCE y varios modelos de referencia en el conjunto de datos recopilado. Se presentaron visualizaciones del ejemplo de "cola helada en una taza de té" y evaluaciones de expertos humanos en todo el conjunto de datos. MoCE redujo significativamente la proporción de pares de conceptos LC-Mis de Nivel 5 en comparación con los modelos de referencia, incluso superando a Dall-E 3 (versión de octubre de 2023) en cierta medida.
Los investigadores también destacaron las limitaciones de las métricas de evaluación automatizadas existentes para el problema de "cola helada en una taza de té". Compararon imágenes generadas por MoCE con imágenes cuidadosamente seleccionadas de vasos transparentes con asas, que se asemejan a tazas de té pero técnicamente no lo son debido a su material. Métricas populares como Clipscore e Image-Reward dieron puntuaciones más altas a la cola helada en vasos transparentes que en tazas de té, indicando un sesgo inherente hacia asociar la cola con recipientes de vidrio.
En conclusión, este estudio introduce una nueva rama de problemas de desalineación texto-imagen - Desalineación de Conceptos Latentes (LC-Mis). Los investigadores desarrollaron un sistema para recopilar pares de conceptos LC-Mis, propusieron el método MoCE para aliviar el problema y demostraron las limitaciones de las métricas actuales de evaluación de alineación texto-imagen. El trabajo futuro continuará avanzando en las tecnologías de IA generativa para satisfacer mejor las necesidades y expectativas humanas.