Dec, 2024

EvalMuse-40K:一个可靠且精细的基准,包含人类全面注释,用于文本到图像生成模型评估

TL;DR本研究解决了自动评估文本到图像生成模型性能时,现有小型数据集不足的问题,特别是在精细评估方面。我们提出了EvalMuse-40K基准,收集了40K个带有细粒度人类注释的图像-文本对,提供了一种多样的评估方式,同时引入了两种新的评估方法,显著提升了图像-文本对齐能力的评估效果。该工作为未来的生成模型研究提供了重要参考,促进了文本到图像生成的进展。