常识T2I挑战：文本到图像生成模型能否理解常识？

Jun, 2024

常识T2I挑战：文本到图像生成模型能否理解常识？

Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?

Xingyu Fu, Muyu He, Yujie Lu, William Yang Wang, Dan Roth

TL;DR我们提出了一个新的任务和基准，用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力，我们将其称为常识-T2I。给定两个对抗性的文本提示，其中包含一组相同的动作词但存在细微差异，例如“没有电的灯泡”与“有电的灯泡”，我们评估T2I模型是否能进行视觉常识推理，即生成与“灯泡未点亮”和“灯泡点亮”相符的图像。常识-T2I提出了一个对抗性挑战，提供成对的文本提示和预期输出。该数据集由专家精心策划，并用细粒度标签进行注释，例如常识类型和预期输出的可能性，以帮助分析模型行为。我们对各种最先进的T2I模型进行了评测，令人惊讶的发现，图像合成与真实生活照片之间仍存在很大差距——即使是DALL-E 3模型在常识-T2I上的准确率也仅为48.92％，稳定的扩散XL模型仅能达到24.92％的准确率。我们的实验证明GPT强化的提示无法解决这一挑战，并对可能导致此类不足的原因进行了详细分析。我们的目标是将常识-T2I作为T2I常识检查的高质量评估基准，促进实际生活图像生成的进展。

Abstract

We present a novel task and benchmark for evaluating the ability of text-to-image(T2I) generation models to produce images that fit commonsense in real life, which we call commonsense-t2i. Given two adversarial text prompts containing an identical set of action words with minor differe