Feb, 2022
DALL-Eval: 探测文本到图像生成模型的推理能力与社会偏见
DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Models
Jaemin Cho, Abhay Zala, Mohit Bansal
TL;DR对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查,提出 PaintSkills 工具集进行测量评估,发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距,并且其在性别和肤色方面的偏见对其表现产生了影响。