Представьте, что вас попросили нарисовать "холодную колу в чайной чашке". Несмотря на необычное сочетание, вы, естественно, сначала нарисовали бы чайную чашку, а затем добавили кубики льда и колу. Но что происходит, когда мы просим AI-художников сделать то же самое? Мы экспериментировали с этим в октябре 2023 года, когда только появлялись крупномасштабные модели генерации изображений с помощью ИИ, и снова в июле 2024 года, используя современные модели.
Даже самые продвинутые AI-художники, такие как Dall-E 3, с трудом концептуализируют "холодную колу в чайной чашке", часто по умолчанию рисуя прозрачный стакан, наполненный холодной колой. Эта проблема известна в академических кругах как несоответствие текста и изображения. Недавняя статья под названием "Потерянные в переводе: Несоответствие латентных концепций в моделях диффузии текста в изображение" исследовательской группы профессора Дэцюаня Вана из Шанхайского университета Цзяо Тун исследует новую ветвь этой проблемы. Статья будет опубликована на 18-й Европейской конференции по компьютерному зрению (ECCV) в октябре 2024 года.
В отличие от традиционных проблем несоответствия, где внимание сосредоточено на взаимном влиянии двух концепций в паре, пример с "холодной колой в чайной чашке" включает скрытую переменную - "прозрачный стакан" - которая появляется на изображении, несмотря на то, что она не упоминается в текстовом запросе. Это явление в статье называется Несоответствием латентных концепций (LC-Mis).
Чтобы исследовать, почему чайная чашка исчезает из сгенерированных изображений, исследователи разработали систему, использующую Большие языковые модели (LLM) для быстрого сбора пар концепций, подобных "холодной коле в чайной чашке". Они объяснили логику проблемы LLM, категоризировали ее и заставили LLM генерировать больше категорий и пар концепций, следуя аналогичной логике. Затем сгенерированные изображения были вручную оценены по шкале от 1 до 5, где 5 означает полную неспособность генерировать правильные изображения.
Чтобы вернуть отсутствующую чайную чашку, исследователи предложили метод, называемый Смесью экспертов по концепциям (MoCE). Этот подход включает человекоподобный последовательный процесс рисования в многоступенчатый процесс выборки диффузионных моделей. LLM сначала предлагают нарисовать чайную чашку, которая отдельно вводится в диффузионную модель для T-N шагов выборки. Затем полный запрос "холодная кола в чайной чашке" предоставляется для оставшихся N шагов для генерации окончательного изображения. Значение N является критическим и корректируется с помощью бинарного поиска на основе оценок соответствия между изображением и концепциями чайной чашки и холодной колы.
Эксперименты проводились с использованием MoCE и различных базовых моделей на собранном наборе данных. Были представлены визуализации примера "холодная кола в чайной чашке" и оценки экспертов-людей по всему набору данных. MoCE значительно снизила долю пар концепций LC-Mis уровня 5 по сравнению с базовыми моделями, даже в некоторой степени превзойдя Dall-E 3 (версия октября 2023 года).
Исследователи также подчеркнули ограничения существующих автоматизированных метрик оценки для проблемы "холодная кола в чайной чашке". Они сравнили изображения, сгенерированные MoCE, с тщательно отобранными изображениями прозрачных стеклянных чашек с ручками, которые напоминают чайные чашки, но технически не являются чайными чашками из-за их материала. Популярные метрики, такие как Clipscore и Image-Reward, давали более высокие оценки холодной коле в прозрачных стаканах, чем в чайных чашках, что указывает на внутреннюю предвзятость в ассоциации колы со стеклянными контейнерами.
В заключение, это исследование представляет новую ветвь проблем несоответствия текста и изображения - Несоответствие латентных концепций (LC-Mis). Исследователи разработали систему для сбора пар концепций LC-Mis, предложили метод MoCE для смягчения проблемы и продемонстрировали ограничения текущих метрик оценки соответствия текста и изображения. Будущая работа будет продолжать развивать технологии генеративного ИИ для лучшего удовлетворения потребностей и ожиданий людей.