Oct, 2023

Davidsonian 场景图:提升文本图像生成的细粒度评估可靠性

TL;DR评估文本到图像模型的难点在于信实性,本研究提出了一种基于问答生成的评估框架,使用预训练模型自动生成问题和答案,并通过与基于视觉问答的答案比较来评分图像的一致性,同时引入 Davidsonian Scene Graph (DSG) 作为一个模块化的方法来解决问题,最终呈现了包含 1,060 个提示的开源评估基准。