Dec, 2023

VIEScore:面向条件图像合成评估的可解释度量

TL;DR本文介绍了 VIESCORE,这是一种视觉指导的可解释度度量指标,用于评估任何条件图像生成任务。VIESCORE 利用多模态大语言模型(MLLMs)的通用知识作为支撑,无需训练或微调。在七项著名的条件图像任务上评估 VIESCORE,我们发现:(1)VIESCORE(GPT4-v)与人类评估的 Spearman 相关系数达到了 0.3,而人类之间的相关系数为 0.45。(2)与 GPT-4v 相比,使用开源 MLLM 的 VIESCORE 在评估合成图像时明显较弱。(3)VIESCORE 在生成任务中与人类评分具有相当的相关性,但在编辑任务中存在困难。基于这些结果,我们相信 VIESCORE 在评估图像合成任务中展现了巨大的潜力,可以取代人类评委的角色。