Jun, 2024

纵观文本和图像生成的整体评估

TL;DR我们介绍了 InterleavedBench 作为第一个精心策划的用于评估混合文本图像生成的基准,并引入了使用 GPT-4o 提供准确且可解释的评估的强无参考度量 InterleavedEval。通过广泛的实验和严格的人工评估,我们表明我们的基准和度量可以有效评估现有模型,并与以前的基于参考的度量具有较强的相关性。