HRS-Bench: 文本到图像模型全面、可靠、可扩展的基准测试

Apr, 2023

HRS-Bench: 文本到图像模型全面、可靠、可扩展的基准测试

HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image Models

Eslam Mohamed Bakr, Pengzhan Sun, Xiaoqian Shen, Faizan Farooq Khan, Li Erran Li...

TL;DR本文提出了一个全面、可靠和可扩展的 Text-to-Image 模型评估基准 HRS-Bench，它涵盖了 13 种技能和 50 种情境，旨在促进未来文本到图像生成研究的发展。通过使用广泛的度量标准对 9 个最新的大规模 T2I 模型进行评估，实验结果表明现有模型在生成具有期望数量的对象、视觉文本或基础情感方面存在问题。

Abstract

In recent years, text-to-image (T2I) models have been extensively studied, especially with the emergence of diffusion models that achieve state-of-the-art results on T2I synthesis tasks. However, existing benchmarks heavily rely on subjective human →

text-to-image benchmark evaluation accuracy generalization

发现论文，激发创造

文本到图像模型的整体评估

对于最近的文本到图像模型，我们缺乏对其能力和风险的全面定量理解。为了填补这个空白，我们引入了一个新的基准，即文本到图像模型的整体评估（HEIM）。我们鉴定了 12 个方面，包括文本与图像的对齐、图像质量、美感、原创性、推理能力、知识、偏见、毒性、公平性、鲁棒性、多语性和效率。我们在这个基准上评估了 26 个最先进的文本到图像模型，结果表明没有单一模型在所有方面都表现出色，不同模型展示了不同的优势。我们透明地发布了生成的图像和人工评估结果。

Nov, 2023

FAIntbench：文本到图像模型中的偏见评估的全面且精确的基准测试

通过 FAIntbench 这一整体且精确的基准，在四个维度上评估了最近七个大规模的 T2I 模型的偏见以及其可见性、获取属性和保护属性，并对其进行了人工评估，证明了 FAIntbench 在识别各种偏见方面的有效性，还揭示了关于偏见的新研究问题，包括蒸馏的副作用。该研究的初步发现凸显了 FAIntbench 在推动未来的研究中减少 T2I 模型偏见方面的潜力，我们的基准系统已公开可用以确保可重现性。

May, 2024

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

PhyBench：用于评估文本到图像模型的物理常识基准

通过引入 PhyBench 评估数据集，我们评估了 6 个主要的 T2I 模型，发现当前的 T2I 模型主要关注文本到图像翻译，缺乏对物理常识的深入推理；我们提倡对 T2I 模型内在知识的更多关注，超越它们仅仅作为图像生成工具的实用性。

Jun, 2024

T2I-CompBench：面向开放世界组合式文本到图像生成的综合基准测试

本研究提出了 T2I-CompBench，这是一个全面的开放式文本成像生成基准测试，包括 6000 个组合文本提示，分为 3 个类别和 6 个子类别，并介绍了几个特定设计的评估度量标准，以评估组合文本到图像生成的效果，并提出了新的生成模型细调和奖励驱动的样本选择（GORS）方法来提高预训练文本到图像模型的组合文本到图像生成能力。

Jul, 2023

文本与图像合成对比性组合基准：统一文本与图像保真度指标的研究

Winoground-T2I 是一个用于评估 T2I 模型组成性的基准，通过包含 11K 个复杂、高质量的对比句对来进行评估，通过比较性句对来评估各种指标的可靠性，最后提供了关于指标的优点和缺点以及当前 T2I 模型在应对复杂组成类别挑战中的能力，该基准公开提供。

Dec, 2023

量化文本到图像生成模型中的偏差

对比四种最新的文本到图像生成模型的基准偏差特征与各自变体，在社会偏见和一般偏见方面提出了三种评估方法，并将该方法应用于字幕图像数据集以衡量其偏见。

Dec, 2023

DEsignBench：DALL-E 3 探索和基准测试想象视觉设计

我们介绍了 DEsignBench，一个针对视觉设计场景量身定制的文本到图像（T2I）生成基准。我们通过 DEsignBench 评估 DALL-E 3 和其他领先的 T2I 模型，开发了一种全面的可视化展示，用于侧边比较不同模型的生成图像。除了人工评估外，我们还引入了第一个由 GPT-4V 提供支持的自动图像生成评估器。

Oct, 2023

T$^3$Bench: 文本到 3D 生成的当前进展基准测试

当前的文本生成 3D 方法在建模 NeRF 时使用了预训练扩散模型，能够生成高质量的 3D 场景。本文介绍了 T^3Bench，第一个包含不同复杂级别的文本提示的全面的文本生成 3D 基准测试。我们提出了基于多视角图像和文本内容的两个自动度量标准来评估主观质量和文本与 3D 的一致性。基准测试结果显示了六种主流文本生成 3D 方法之间的性能差异，并凸显了当前方法在生成环境和多物体场景以及利用 2D 指导进行 3D 生成方面的共同困难。

Oct, 2023