文本到图像模型的整体评估
本文提出了一个全面、可靠和可扩展的 Text-to-Image 模型评估基准 HRS-Bench,它涵盖了 13 种技能和 50 种情境,旨在促进未来文本到图像生成研究的发展。通过使用广泛的度量标准对 9 个最新的大规模 T2I 模型进行评估,实验结果表明现有模型在生成具有期望数量的对象、视觉文本或基础情感方面存在问题。
Apr, 2023
我们提出了综合评估语言模型 (HELM) 来提高人们对这一基础技术的透明度,采用多指标方法测量 16 个核心场景的 7 个指标,此外还进行了 7 个有针对性的评估,总结了 25 个高层次结论,并公开了所有模型和完成的原始数据。
Nov, 2022
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了 3,600 个评分。
Nov, 2022
最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐,研究人员开发了新的评估指标,通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标,并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集,并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后,我们提出了改进文本到图像评估的准则,并讨论了目前的挑战和限制。
Mar, 2024
我们在本文中提出了一种经验研究,介绍了一种用于文本到图像(T2I)生成模型的细致评估框架,应用于人类图像合成。我们的框架将评估分为两个不同的组别:第一组主要关注美学和真实性等图像质量,第二组则检验文本条件,包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型,评估生成图像的视觉吸引力,并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性,而公平性分析则揭示了模型输出中的偏见,特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础,但这种双重面向的方法被设计成具有灵活性,可以应用于其他形式的图像生成,增强我们对生成模型的理解,并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码,用于评估生成模型的数据以及标注有有缺陷区域的数据集。
Mar, 2024
我们介绍了 InterleavedBench 作为第一个精心策划的用于评估混合文本图像生成的基准,并引入了使用 GPT-4o 提供准确且可解释的评估的强无参考度量 InterleavedEval。通过广泛的实验和严格的人工评估,我们表明我们的基准和度量可以有效评估现有模型,并与以前的基于参考的度量具有较强的相关性。
Jun, 2024
本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法,用于评估和比较最新的文本到图片模型。实验结果表明,人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。
Dec, 2022
通过 FAIntbench 这一整体且精确的基准,在四个维度上评估了最近七个大规模的 T2I 模型的偏见以及其可见性、获取属性和保护属性,并对其进行了人工评估,证明了 FAIntbench 在识别各种偏见方面的有效性,还揭示了关于偏见的新研究问题,包括蒸馏的副作用。该研究的初步发现凸显了 FAIntbench 在推动未来的研究中减少 T2I 模型偏见方面的潜力,我们的基准系统已公开可用以确保可重现性。
May, 2024
本文旨在提出一种规范化和明确定义的人工评估协议,以促进未来作品中可验证和可重复的人工评估,针对 37 篇最近论文调查显示,许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估,同时,作者还提供了设计可靠和决定性人工评估实验所需的见解,并向社区提供了几个公开的资源以促进快速实现。
Apr, 2023