Imagine ser solicitado a desenhar "cola gelada em uma xícara de chá". Apesar da combinação incomum, você naturalmente desenharia primeiro uma xícara de chá e depois adicionaria cubos de gelo e cola. Mas o que acontece quando pedimos aos artistas de IA para fazer o mesmo? Experimentamos isso em outubro de 2023, quando os modelos de geração de imagens de IA em larga escala estavam apenas surgindo, e novamente em julho de 2024 usando modelos de última geração.
Mesmo os artistas de IA mais avançados, como o Dall-E 3, têm dificuldade em conceitualizar "cola gelada em uma xícara de chá", frequentemente optando por desenhar um copo transparente cheio de cola gelada. Essa questão é conhecida como desalinhamento texto-imagem na academia. Um artigo recente intitulado "Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models" do grupo de pesquisa do Professor Dequan Wang na Universidade Jiao Tong de Xangai explora um novo ramo desse problema. O artigo será publicado na 18ª Conferência Europeia sobre Visão Computacional (ECCV) em outubro de 2024.
Link do artigo Link do projeto
Diferentemente dos problemas tradicionais de desalinhamento, onde o foco está na influência mútua de dois conceitos em um par, o exemplo de "cola gelada em uma xícara de chá" envolve uma variável oculta - o "copo transparente" - que aparece na imagem apesar de não ser mencionado no prompt de texto. Esse fenômeno é denominado Desalinhamento de Conceito Latente (LC-Mis) no artigo.
Para explorar por que a xícara de chá desaparece das imagens geradas, os pesquisadores projetaram um sistema usando Modelos de Linguagem Grande (LLMs) para coletar rapidamente pares de conceitos semelhantes a "cola gelada em uma xícara de chá". Eles explicaram a lógica por trás do problema aos LLMs, categorizaram-no e fizeram com que os LLMs gerassem mais categorias e pares de conceitos seguindo uma lógica semelhante. As imagens geradas foram então avaliadas manualmente em uma escala de 1 a 5, com 5 indicando falha completa na geração de imagens corretas.
Para trazer de volta a xícara de chá ausente, os pesquisadores propuseram um método chamado Mistura de Especialistas em Conceitos (MoCE). Essa abordagem incorpora o processo de desenho sequencial semelhante ao humano no processo de amostragem de múltiplos passos dos modelos de difusão. Os LLMs primeiro sugerem desenhar uma xícara de chá, que é inserida separadamente no modelo de difusão para T-N passos de amostragem. O prompt completo "cola gelada em uma xícara de chá" é então fornecido para os N passos restantes para gerar a imagem final. O valor de N é crucial e é ajustado usando busca binária com base nas pontuações de alinhamento entre a imagem e os conceitos de xícara de chá e cola gelada.
Experimentos foram conduzidos usando MoCE e vários modelos de base no conjunto de dados coletado. Visualizações do exemplo "cola gelada em uma xícara de chá" e avaliações de especialistas humanos em todo o conjunto de dados foram apresentadas. O MoCE reduziu significativamente a proporção de pares de conceitos LC-Mis de Nível 5 em comparação com os modelos de base, até mesmo superando o Dall-E 3 (versão de outubro de 2023) em certa medida.
Os pesquisadores também destacaram as limitações das métricas de avaliação automatizadas existentes para o problema da "cola gelada em uma xícara de chá". Eles compararam imagens geradas pelo MoCE com imagens cuidadosamente selecionadas de copos de vidro transparente com alças, que se assemelham a xícaras de chá, mas tecnicamente não são xícaras de chá devido ao seu material. Métricas populares como Clipscore e Image-Reward deram pontuações mais altas para cola gelada em copos transparentes do que em xícaras de chá, indicando um viés inerente em associar cola a recipientes de vidro.
Em conclusão, este estudo introduz um novo ramo de problemas de desalinhamento texto-imagem - o Desalinhamento de Conceito Latente (LC-Mis). Os pesquisadores desenvolveram um sistema para coletar pares de conceitos LC-Mis, propuseram o método MoCE para aliviar o problema e demonstraram as limitações das métricas atuais de avaliação de alinhamento texto-imagem. Trabalhos futuros continuarão a avançar as tecnologias de IA generativa para melhor atender às necessidades e expectativas humanas.