ACLMay, 2024

描绘模糊性:对 Winograd 模式挑战的视觉转折

TL;DR利用 GPT-4 生成提示并使用 Diffusion Attentive Attribution Maps (DAAM) 进行热图分析,我们引入了一个新的数据集 WinoVis,用于在多模态环境中对文本到图像模型进行代词消岐。通过对连续模型版本的评估,我们发现尽管有逐步的进展,Stable Diffusion 2.0 在 WinoVis 上的准确率仅为 56.7%,只略微超过随机猜测。进一步的错误分析确定了未来研究的重要方向,旨在提升文本到图像模型在解释和与复杂视觉世界交互的能力。