HRS-Bench: 文本到图像模型全面、可靠、可扩展的基准测试
对于最近的文本到图像模型,我们缺乏对其能力和风险的全面定量理解。为了填补这个空白,我们引入了一个新的基准,即文本到图像模型的整体评估(HEIM)。我们鉴定了 12 个方面,包括文本与图像的对齐、图像质量、美感、原创性、推理能力、知识、偏见、毒性、公平性、鲁棒性、多语性和效率。我们在这个基准上评估了 26 个最先进的文本到图像模型,结果表明没有单一模型在所有方面都表现出色,不同模型展示了不同的优势。我们透明地发布了生成的图像和人工评估结果。
Nov, 2023
通过 FAIntbench 这一整体且精确的基准,在四个维度上评估了最近七个大规模的 T2I 模型的偏见以及其可见性、获取属性和保护属性,并对其进行了人工评估,证明了 FAIntbench 在识别各种偏见方面的有效性,还揭示了关于偏见的新研究问题,包括蒸馏的副作用。该研究的初步发现凸显了 FAIntbench 在推动未来的研究中减少 T2I 模型偏见方面的潜力,我们的基准系统已公开可用以确保可重现性。
May, 2024
我们提供了一个新的多任务基准,用于评估文本到图像模型,在计算机视觉和机器学习领域中进行了广泛的研究,我们进行了人类评估,比较了最常见的开源(稳定扩散)和商业(DALL-E 2)模型,在三个难度级别上的三个任务上,跨十个提示,提供了 3,600 个评分。
Nov, 2022
我们在本文中提出了一种经验研究,介绍了一种用于文本到图像(T2I)生成模型的细致评估框架,应用于人类图像合成。我们的框架将评估分为两个不同的组别:第一组主要关注美学和真实性等图像质量,第二组则检验文本条件,包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型,评估生成图像的视觉吸引力,并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性,而公平性分析则揭示了模型输出中的偏见,特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础,但这种双重面向的方法被设计成具有灵活性,可以应用于其他形式的图像生成,增强我们对生成模型的理解,并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码,用于评估生成模型的数据以及标注有有缺陷区域的数据集。
Mar, 2024
通过引入 PhyBench 评估数据集,我们评估了 6 个主要的 T2I 模型,发现当前的 T2I 模型主要关注文本到图像翻译,缺乏对物理常识的深入推理;我们提倡对 T2I 模型内在知识的更多关注,超越它们仅仅作为图像生成工具的实用性。
Jun, 2024
本研究提出了 T2I-CompBench,这是一个全面的开放式文本成像生成基准测试,包括 6000 个组合文本提示,分为 3 个类别和 6 个子类别,并介绍了几个特定设计的评估度量标准,以评估组合文本到图像生成的效果,并提出了新的生成模型细调和奖励驱动的样本选择(GORS)方法来提高预训练文本到图像模型的组合文本到图像生成能力。
Jul, 2023
Winoground-T2I 是一个用于评估 T2I 模型组成性的基准,通过包含 11K 个复杂、高质量的对比句对来进行评估,通过比较性句对来评估各种指标的可靠性,最后提供了关于指标的优点和缺点以及当前 T2I 模型在应对复杂组成类别挑战中的能力,该基准公开提供。
Dec, 2023
我们介绍了 DEsignBench,一个针对视觉设计场景量身定制的文本到图像(T2I)生成基准。我们通过 DEsignBench 评估 DALL-E 3 和其他领先的 T2I 模型,开发了一种全面的可视化展示,用于侧边比较不同模型的生成图像。除了人工评估外,我们还引入了第一个由 GPT-4V 提供支持的自动图像生成评估器。
Oct, 2023
当前的文本生成 3D 方法在建模 NeRF 时使用了预训练扩散模型,能够生成高质量的 3D 场景。本文介绍了 T^3Bench,第一个包含不同复杂级别的文本提示的全面的文本生成 3D 基准测试。我们提出了基于多视角图像和文本内容的两个自动度量标准来评估主观质量和文本与 3D 的一致性。基准测试结果显示了六种主流文本生成 3D 方法之间的性能差异,并凸显了当前方法在生成环境和多物体场景以及利用 2D 指导进行 3D 生成方面的共同困难。
Oct, 2023