想象一下被要求画"茶杯里的冰可乐"。尽管这是一个不寻常的组合,你自然会先画一个茶杯,然后添加冰块和可乐。但当我们要求AI艺术家做同样的事情时会发生什么呢?我们在2023年10月大规模AI图像生成模型刚刚出现时进行了实验,并在2024年7月再次使用最先进的模型进行了实验。
即使是像Dall-E 3这样最先进的AI艺术家也难以概念化"茶杯里的冰可乐",通常默认画出一个装满冰可乐的透明玻璃杯。这个问题在学术界被称为文本-图像不对齐。上海交通大学王德权教授研究组最近发表的一篇题为"迷失在翻译中:文本到图像扩散模型中的潜在概念不对齐"的论文探讨了这个问题的一个新分支。该论文将于2024年10月在第18届欧洲计算机视觉会议(ECCV)上发表。
与传统的不对齐问题不同,传统问题关注的是一对概念之间的相互影响,"茶杯里的冰可乐"的例子涉及一个隐藏变量 - "透明玻璃杯" - 它在图像中出现,尽管在文本提示中没有提到。这种现象在论文中被称为潜在概念不对齐(LC-Mis)。
为了探究为什么茶杯从生成的图像中消失,研究人员设计了一个使用大型语言模型(LLMs)快速收集类似"茶杯里的冰可乐"的概念对的系统。他们向LLMs解释了问题背后的逻辑,对其进行分类,并让LLMs生成更多遵循类似逻辑的类别和概念对。然后对生成的图像进行人工评估,评分从1到5,5表示完全无法生成正确的图像。
为了让消失的茶杯重新出现,研究人员提出了一种称为概念专家混合(MoCE)的方法。这种方法将人类类似的顺序绘画过程融入到扩散模型的多步采样过程中。LLMs首先建议画一个茶杯,这被单独输入到扩散模型中进行T-N个采样步骤。然后提供完整的提示"茶杯里的冰可乐"用于剩余的N个步骤来生成最终图像。N的值至关重要,根据图像与茶杯和冰可乐概念之间的对齐分数使用二分搜索进行调整。
研究人员使用MoCE和各种基线模型在收集的数据集上进行了实验。展示了"茶杯里的冰可乐"示例的可视化结果和整个数据集的人类专家评估。与基线模型相比,MoCE显著减少了5级LC-Mis概念对的比例,在某种程度上甚至超过了Dall-E 3(2023年10月版本)。
研究人员还强调了现有自动评估指标在"茶杯里的冰可乐"问题上的局限性。他们将MoCE生成的图像与精心选择的带把手的透明玻璃杯图像进行了比较,这些玻璃杯看起来像茶杯,但由于材料原因技术上不是茶杯。流行的指标如Clipscore和Image-Reward给予透明玻璃杯中的冰可乐比茶杯中的更高分数,表明存在将可乐与玻璃容器联系起来的内在偏见。
总之,这项研究引入了文本-图像不对齐问题的一个新分支 - 潜在概念不对齐(LC-Mis)。研究人员开发了一个系统来收集LC-Mis概念对,提出了MoCE方法来缓解这个问题,并展示了当前文本-图像对齐评估指标的局限性。未来的工作将继续推进生成式AI技术,以更好地满足人类的需求和期望。