文本到图像生成的自动评估:任务分解框架、蒸馏训练及元评估基准
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了3,600个评分。
Nov, 2022
我们在本文中提出了一种经验研究,介绍了一种用于文本到图像(T2I)生成模型的细致评估框架,应用于人类图像合成。我们的框架将评估分为两个不同的组别:第一组主要关注美学和真实性等图像质量,第二组则检验文本条件,包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型,评估生成图像的视觉吸引力,并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性,而公平性分析则揭示了模型输出中的偏见,特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础,但这种双重面向的方法被设计成具有灵活性,可以应用于其他形式的图像生成,增强我们对生成模型的理解,并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码,用于评估生成模型的数据以及标注有有缺陷区域的数据集。
Mar, 2024
最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐,研究人员开发了新的评估指标,通过收集带有复杂注释的数据集来研究视觉-语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标,并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本-图像基准数据集,并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后,我们提出了改进文本到图像评估的准则,并讨论了目前的挑战和限制。
Mar, 2024
我们通过对自动评价度量和人类模板进行广泛研究,介绍了一种综合的基于技能的基准,收集了超过100,000个注释,并引入了一种新的基于问答的自动评价度量,以在各种人类模板和TIFA160上更好地与人类评分相关联。
Apr, 2024
我们介绍了InterleavedBench作为第一个精心策划的用于评估混合文本图像生成的基准,并引入了使用GPT-4o提供准确且可解释的评估的强无参考度量InterleavedEval。通过广泛的实验和严格的人工评估,我们表明我们的基准和度量可以有效评估现有模型,并与以前的基于参考的度量具有较强的相关性。
Jun, 2024
SubLIME是一个数据高效评估框架,利用自适应采样技术,如聚类和质量导向方法,创建代表性的基准子集,以确保与完整数据集在模型排名方面具有高皮尔逊相关系数。该框架在评估低资源语言模型和文本到图像模型方面提供了一种灵活且经济高效的解决方案。
Jun, 2024
本文提出了EvalAlign,这是一种准确性、稳定性和细粒度特性突出的评估指标,通过利用在大规模数据集上进行预训练的多模式大型语言模型(MLLMs)的能力,通过开发集中在图像忠实度和文本-图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令,进行生成图像的精确手动评分,使MLLMs与人类评估判断紧密对齐,得到了一个强大的评估模型。我们对24个文本-图像生成模型进行了全面的测试,结果表明EvalAlign不仅提供了更好的指标稳定性,而且比现有的指标更接近人类的偏好,从而验证了其在模型评估中的有效性和实用性。
Jun, 2024
本研究解决了自动生成图像描述质量评估的复杂问题,现有的自动化指标与人工评估相关性弱。我们提出的Image2Text2Image框架利用扩散模型生成新图像,通过比较原始图像与生成图像的特征相似性来评估描述的准确性,该方法不依赖于人工注释的参考标题,提供了有效的评估工具。
Nov, 2024
本研究针对现有文本到图像 (T2I) 模型评估中由于跨模态信息不对称导致的可靠性不足问题,提出了图像再生任务,以生成与参考图像相同的图像辅助评估。研究中引入了包含内容多样和风格多样的数据集,并通过ImageRepainter框架提高生成图像的质量,实验结果表明,该框架能够有效提升模型的生成能力。
Nov, 2024
本研究解决了自动评估文本到图像生成模型性能时,现有小型数据集不足的问题,特别是在精细评估方面。我们提出了EvalMuse-40K基准,收集了40K个带有细粒度人类注释的图像-文本对,提供了一种多样的评估方式,同时引入了两种新的评估方法,显著提升了图像-文本对齐能力的评估效果。该工作为未来的生成模型研究提供了重要参考,促进了文本到图像生成的进展。
Dec, 2024