文本到图像模型的整体评估

Nov, 2023

Holistic Evaluation of Text-To-Image Models

Tony Lee, Michihiro Yasunaga, Chenlin Meng, Yifan Mai, Joon Sung Park...

TL;DR对于最近的文本到图像模型，我们缺乏对其能力和风险的全面定量理解。为了填补这个空白，我们引入了一个新的基准，即文本到图像模型的整体评估（HEIM）。我们鉴定了 12 个方面，包括文本与图像的对齐、图像质量、美感、原创性、推理能力、知识、偏见、毒性、公平性、鲁棒性、多语性和效率。我们在这个基准上评估了 26 个最先进的文本到图像模型，结果表明没有单一模型在所有方面都表现出色，不同模型展示了不同的优势。我们透明地发布了生成的图像和人工评估结果。

Abstract

The stunning qualitative improvement of recent text-to-image models has led to their widespread attention and adoption. However, we lack a comprehensive quantitative understanding of their capabilities and risks. To fill this gap, we introduce a new →

text-to-image models holistic evaluation of text-to-image models benchmark image quality alignment

发现论文，激发创造

HRS-Bench: 文本到图像模型全面、可靠、可扩展的基准测试

本文提出了一个全面、可靠和可扩展的 Text-to-Image 模型评估基准 HRS-Bench，它涵盖了 13 种技能和 50 种情境，旨在促进未来文本到图像生成研究的发展。通过使用广泛的度量标准对 9 个最新的大规模 T2I 模型进行评估，实验结果表明现有模型在生成具有期望数量的对象、视觉文本或基础情感方面存在问题。

Apr, 2023

语言模型整体评估

我们提出了综合评估语言模型 (HELM) 来提高人们对这一基础技术的透明度，采用多指标方法测量 16 个核心场景的 7 个指标，此外还进行了 7 个有针对性的评估，总结了 25 个高层次结论，并公开了所有模型和完成的原始数据。

Nov, 2022

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022

评估文本到图像合成：图像质量指标的调查和分类

最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐，研究人员开发了新的评估指标，通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标，并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集，并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后，我们提出了改进文本到图像评估的准则，并讨论了目前的挑战和限制。

Mar, 2024

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

纵观文本和图像生成的整体评估

我们介绍了 InterleavedBench 作为第一个精心策划的用于评估混合文本图像生成的基准，并引入了使用 GPT-4o 提供准确且可解释的评估的强无参考度量 InterleavedEval。通过广泛的实验和严格的人工评估，我们表明我们的基准和度量可以有效评估现有模型，并与以前的基于参考的度量具有较强的相关性。

Jun, 2024

TeTIm-Eval：一个用于比较文本到图像模型的新型策划评估数据集

本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法，用于评估和比较最新的文本到图片模型。实验结果表明，人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。

Dec, 2022

FAIntbench：文本到图像模型中的偏见评估的全面且精确的基准测试

通过 FAIntbench 这一整体且精确的基准，在四个维度上评估了最近七个大规模的 T2I 模型的偏见以及其可见性、获取属性和保护属性，并对其进行了人工评估，证明了 FAIntbench 在识别各种偏见方面的有效性，还揭示了关于偏见的新研究问题，包括蒸馏的副作用。该研究的初步发现凸显了 FAIntbench 在推动未来的研究中减少 T2I 模型偏见方面的潜力，我们的基准系统已公开可用以确保可重现性。

May, 2024

面向可验证和可重复的文本到图像生成的人类评估

本文旨在提出一种规范化和明确定义的人工评估协议，以促进未来作品中可验证和可重复的人工评估，针对 37 篇最近论文调查显示，许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估，同时，作者还提供了设计可靠和决定性人工评估实验所需的见解，并向社区提供了几个公开的资源以促进快速实现。

Apr, 2023

量化文本到图像生成模型中的偏差

对比四种最新的文本到图像生成模型的基准偏差特征与各自变体，在社会偏见和一般偏见方面提出了三种评估方法，并将该方法应用于字幕图像数据集以衡量其偏见。

Dec, 2023