Feb, 2022

DALL-Eval: 探测文本到图像生成模型的推理能力与社会偏见

TL;DR对多模态变压器语言模型和扩散模型等文本到图像模型进行了视觉推理能力和社会偏见的调查,提出 PaintSkills 工具集进行测量评估,发现最新的文本到图像模型在目标计数和空间关系理解技能上的性能与上限准确性之间存在较大差距,并且其在性别和肤色方面的偏见对其表现产生了影响。