想像一下被要求畫「茶杯裡的冰可樂」。儘管這是不尋常的組合,你自然會先畫一個茶杯,然後加入冰塊和可樂。但當我們要求 AI 藝術家做同樣的事情時會發生什麼呢?我們在 2023 年 10 月大規模 AI 圖像生成模型剛剛出現時進行了實驗,並在 2024 年 7 月再次使用最先進的模型進行了實驗。
即使是像 Dall-E 3 這樣最先進的 AI 藝術家也難以概念化「茶杯裡的冰可樂」,經常默認畫出裝滿冰可樂的透明玻璃杯。在學術界,這個問題被稱為文本-圖像不對齊。上海交通大學王德權教授研究小組的一篇最新論文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》探討了這個問題的一個新分支。該論文將於 2024 年 10 月在第 18 屆歐洲計算機視覺會議(ECCV)上發表。
與傳統的不對齊問題不同,傳統問題關注的是一對概念之間的相互影響,「茶杯裡的冰可樂」的例子涉及一個隱藏變量 - 「透明玻璃杯」- 它在圖像中出現,儘管在文本提示中沒有提到。論文中將這種現象稱為潛在概念不對齊(LC-Mis)。
為了探究為什麼茶杯從生成的圖像中消失,研究人員設計了一個系統,使用大型語言模型(LLMs)快速收集類似「茶杯裡的冰可樂」的概念對。他們向 LLMs 解釋了問題背後的邏輯,對其進行分類,並讓 LLMs 按照類似的邏輯生成更多類別和概念對。然後對生成的圖像進行人工評估,評分範圍從 1 到 5,5 表示完全無法生成正確的圖像。
為了讓消失的茶杯重新出現,研究人員提出了一種稱為概念專家混合(MoCE)的方法。這種方法將人類式的順序繪畫過程納入擴散模型的多步採樣過程中。LLMs 首先建議畫一個茶杯,將其單獨輸入擴散模型進行 T-N 個採樣步驟。然後在剩餘的 N 步中提供完整的提示「茶杯裡的冰可樂」來生成最終圖像。N 的值至關重要,根據圖像與茶杯和冰可樂概念之間的對齊分數使用二分搜索進行調整。
研究人員使用 MoCE 和各種基線模型在收集的數據集上進行了實驗。展示了「茶杯裡的冰可樂」例子的可視化結果和整個數據集的人類專家評估。與基線模型相比,MoCE 顯著減少了 5 級 LC-Mis 概念對的比例,在某種程度上甚至超過了 Dall-E 3(2023 年 10 月版本)。
研究人員還強調了現有自動評估指標在「茶杯裡的冰可樂」問題上的局限性。他們將 MoCE 生成的圖像與精心挑選的帶把手的透明玻璃杯圖像進行了比較,這些玻璃杯看起來像茶杯,但由於材質原因技術上不是茶杯。流行的指標如 Clipscore 和 Image-Reward 給予透明玻璃杯中的冰可樂比茶杯中的更高分數,表明存在將可樂與玻璃容器聯繫起來的固有偏見。
總之,這項研究引入了文本-圖像不對齊問題的一個新分支 - 潛在概念不對齊(LC-Mis)。研究人員開發了一個系統來收集 LC-Mis 概念對,提出了 MoCE 方法來緩解這個問題,並展示了當前文本-圖像對齊評估指標的局限性。未來的工作將繼續推進生成式 AI 技術,以更好地滿足人類的需求和期望。