Jun, 2024

GenAI-Bench: 评估和改进文本到视觉生成能力

TL;DR本文通过对 GenAI-Bench 上的人类评分进行广泛研究,评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能,并发现 VQAScore 比先前的评估指标(如 CLIPScore)明显优于人类评分,而且 VQAScore 可以在黑盒的基础上通过简单地对候选图像进行排名(3 到 9 张)从而显著提高生成速度,在需要高级视觉语言推理的复合提示下,VQAScore 的排名效果比其他评分方法如 PickScore、HPSv2 和 ImageReward 提高 2 倍至 3 倍。