ティーカップに入った氷入りコーラを描くように頼まれたと想像してください。この珍しい組み合わせにもかかわらず、自然にまずティーカップを描き、そこに氷とコーラを加えるでしょう。しかし、AIアーティストに同じことを頼むとどうなるでしょうか?私たちは、大規模なAI画像生成モデルが登場し始めた2023年10月と、最先端のモデルを使用した2024年7月に実験を行いました。
Dall-E 3のような最も高度なAIアーティストでさえ、「ティーカップに入った氷入りコーラ」を概念化するのに苦労し、代わりに氷入りコーラで満たされた透明なグラスを描くことがよくあります。この問題は学術界では「テキスト-画像のミスアライメント」として知られています。上海交通大学のDequan Wang教授の研究グループによる「Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models」と題された最近の論文は、この問題の新しい分野を探求しています。この論文は2024年10月に開催される第18回欧州コンピュータビジョン会議(ECCV)で発表される予定です。
ペアの2つの概念の相互影響に焦点を当てる従来のミスアライメント問題とは異なり、「ティーカップに入った氷入りコーラ」の例には隠れた変数 - 「透明なグラス」 - が含まれており、これはテキストプロンプトで言及されていないにもかかわらず画像に現れます。この現象は論文で潜在概念ミスアライメント(LC-Mis)と呼ばれています。
生成された画像からティーカップが消える理由を探るため、研究者たちは大規模言語モデル(LLM)を使用して「ティーカップに入った氷入りコーラ」に似た概念ペアを迅速に収集するシステムを設計しました。彼らはLLMに問題の論理を説明し、分類し、同様の論理に従ってさらなるカテゴリーと概念ペアを生成させました。生成された画像は1から5のスケールで手動評価され、5は正しい画像の生成に完全に失敗したことを示します。
消えたティーカップを取り戻すため、研究者たちは概念エキスパートの混合(MoCE)と呼ばれる方法を提案しました。このアプローチは、人間のような順序立てた描画プロセスを拡散モデルの多段階サンプリングプロセスに組み込みます。まずLLMがティーカップを描くことを提案し、これを拡散モデルにT-Nサンプリングステップで別々に入力します。その後、残りのNステップで完全なプロンプト「ティーカップに入った氷入りコーラ」を提供して最終画像を生成します。Nの値は重要で、ティーカップと氷入りコーラの概念との画像の整合性スコアに基づいて二分探索で調整されます。
収集されたデータセットを使用して、MoCEと様々なベースラインモデルで実験が行われました。「ティーカップに入った氷入りコーラ」の例の可視化と、データセット全体にわたる人間の専門家による評価が提示されました。MoCEは、ベースラインモデルと比較してレベル5のLC-Mis概念ペアの割合を大幅に減少させ、ある程度Dall-E 3(2023年10月版)さえも上回りました。
研究者たちはまた、「ティーカップに入った氷入りコーラ」の問題に対する既存の自動評価指標の限界を強調しました。彼らは、MoCEで生成された画像と、ティーカップに似ているが素材の違いで技術的にはティーカップではない取っ手付きの透明なガラスカップの慎重に選ばれた画像を比較しました。ClipscoreやImage-Rewardなどの人気のある指標は、ティーカップよりもガラスに入った氷入りコーラに高いスコアを与え、コーラをガラス容器と関連付ける固有のバイアスを示しました。
結論として、この研究はテキスト-画像ミスアライメント問題の新しい分野 - 潜在概念ミスアライメント(LC-Mis)を紹介しています。研究者たちはLC-Mis概念ペアを収集するシステムを開発し、問題を軽減するためのMoCE方法を提案し、現在のテキスト-画像整合性評価指標の限界を示しました。今後の研究は、人間のニーズと期待により適合するよう生成AIテクノロジーを進歩させ続けるでしょう。