Jun, 2024

常识T2I挑战:文本到图像生成模型能否理解常识?

TL;DR我们提出了一个新的任务和基准,用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力,我们将其称为常识-T2I。给定两个对抗性的文本提示,其中包含一组相同的动作词但存在细微差异,例如“没有电的灯泡”与“有电的灯泡”,我们评估T2I模型是否能进行视觉常识推理,即生成与“灯泡未点亮”和“灯泡点亮”相符的图像。常识-T2I提出了一个对抗性挑战,提供成对的文本提示和预期输出。该数据集由专家精心策划,并用细粒度标签进行注释,例如常识类型和预期输出的可能性,以帮助分析模型行为。我们对各种最先进的T2I模型进行了评测,令人惊讶的发现,图像合成与真实生活照片之间仍存在很大差距——即使是DALL-E 3模型在常识-T2I上的准确率也仅为48.92%,稳定的扩散XL模型仅能达到24.92%的准确率。我们的实验证明GPT强化的提示无法解决这一挑战,并对可能导致此类不足的原因进行了详细分析。我们的目标是将常识-T2I作为T2I常识检查的高质量评估基准,促进实际生活图像生成的进展。