评估文本与图像生成模型：人类图像合成的实证研究

Mar, 2024

评估文本与图像生成模型：人类图像合成的实证研究

Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis

Muxi Chen, Yi Liu, Jian Yi, Changran Xu, Qiuxia Lai...

TL;DR我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Abstract

In this paper, we present an empirical study introducing a nuanced evaluation framework for text-to-image (T2I) generative models, applied to human image synthesis. Our framework categorizes evaluations into two distinct groups: first, focusing on →

empirical study text-to-image generative models image qualities concept coverage fairness

发现论文，激发创造

文本图像生成模型的质量、偏差和性能分析

通过 qualitatively 评估精确生成人脸、群体和指定数量对象的图片，我们不仅检查了多个文本到图像模型的性能，还进行了社会偏见分析。我们发现，容量更大的模型生成的图片质量更高，但同时这些模型也存在固有的性别或社会偏见，从而更全面地了解了它们的影响和局限性。

Jun, 2024

面向可验证和可重复的文本到图像生成的人类评估

本文旨在提出一种规范化和明确定义的人工评估协议，以促进未来作品中可验证和可重复的人工评估，针对 37 篇最近论文调查显示，许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估，同时，作者还提供了设计可靠和决定性人工评估实验所需的见解，并向社区提供了几个公开的资源以促进快速实现。

Apr, 2023

量化文本到图像生成模型中的偏差

对比四种最新的文本到图像生成模型的基准偏差特征与各自变体，在社会偏见和一般偏见方面提出了三种评估方法，并将该方法应用于字幕图像数据集以衡量其偏见。

Dec, 2023

文本到图像生成中的偏见调查：定义、评估和缓解

通过对 T2I（Text-to-Image）生成模型中的偏见进行研究调查，揭示了存在的社会偏见对少数群体的边缘化造成的影响，并指出在研究中存在的限制和未来的研究方向。

Apr, 2024

TIBET: 文本到图像生成模型中的偏见识别和评估

我们提出了一种通用方法，通过反事实推理来研究和量化任何文本到图像生成模型和任何提示的广泛偏见和偏差，并以语义概念的形式扩展了定量评分。

Dec, 2023

文本到图像生成的丰富人类反馈

通过人类反馈信号提高图像生成质量，结合文本到图像生成模型和基于强化学习的人类反馈，标记不真实或不对齐的图像区域以及文本中被误代表或缺失的词，使用多模态变换器自动预测反馈，进一步改进图像生成方法。

Dec, 2023

评估文本到图像合成：图像质量指标的调查和分类

最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐，研究人员开发了新的评估指标，通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标，并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集，并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后，我们提出了改进文本到图像评估的准则，并讨论了目前的挑战和限制。

Mar, 2024

通过文本生成图像透视社交偏见

本文通过对两个流行的 T2I 模型（DALLE-v2 和 Stable Diffusion）进行广泛的自动化和人工评估实验，专注于反映出的性别、年龄、种族和地理位置之间的职业，人格特征和日常情况的生成图像，研究和量化常见的社会偏见。我们的研究结果表明，这些模型中存在严重的职业偏见和地理位置代表的日常情况。尽管可以通过增加提示本身的详细信息来缓解这些偏差，但提示缓解可能无法解决图像质量或模型在其他场景中的其他用途的差异。

Mar, 2023

对抗性文本到图像合成：综述

该论文综述了生成对抗网络在文本到图像合成方面的发展以及面临的挑战，提出了一些研究方向，包括评估指标、数据集和模型架构设计等方面的改进。

Jan, 2021

使用扩散模型进行无偏面部合成：我们已经达到目标了吗？

利用定性和定量指标以及用户研究，本论文主要研究了生成模型在面部图像生成中的有效性和不足之处，并提出了一个框架来审核生成的面部图像的特征。通过对最先进的文本到图像扩散模型生成的面部进行应用，我们发现面部图像生成存在的限制包括对文本提示的忠实度、人口统计不平衡和分布偏移。此外，我们还提出了一种分析模型，以了解训练数据选择如何影响生成模型的性能。

Sep, 2023