生成模型的基于属性的可解释评估指标

Oct, 2023

生成模型的基于属性的可解释评估指标

Attribute Based Interpretable Evaluation Metrics for Generative Models

Dongkyun Kim, Mingi Kwon, Youngjung Uh

TL;DR当训练数据集由 1:1 的狗和猫比例组成时，生成模型会更好地符合训练种群分布，而不是由 3:1 的狗和猫比例组成的其他模型。我们提出了一个新的评估协议来衡量生成的图像集与训练集在属性强度分布方面的差异。我们的指标为生成模型的评估奠定了基础。

Abstract

When the training dataset comprises a 1:1 proportion of dogs to cats, a generative model that produces 1:1 dogs and cats better resembles the training species distribution than another model with 3:1 dogs and cats. Can we capture this phenomenon using existing metrics? Unfortunately, we cannot, because these metrics do not provide any interpretability beyond

generative models diversity evaluation protocol attribute strengths explainable evaluations

发现论文，激发创造

通过准确率和召回率评估生成模型

通过提出新的分布的精度和召回率的概念，针对生成模型提出了一种新的评估方法，能够分离出分布的两个维度，从而区分生成样本的质量和目标分布的覆盖范围，是一种有效的评价生成模型的算法。

May, 2018

基于扩散模型的风格生成对抗网络中的属性变化探索

现有的属性编辑方法将语义属性视为二进制，导致每个属性只能进行一次编辑。然而，如眼镜、微笑或发型等属性展示了广泛的多样性。在本研究中，我们通过建模属性编辑的多维性质来提出 “多样属性编辑” 的任务，从而使用户能够为每个属性生成多个合理的编辑。我们利用预训练 GAN 的分离潜空间和训练一个去噪扩散概率模型（DDPM）来学习用于多样编辑的潜分布。具体而言，我们通过嵌入具有单个属性变化的图像对来训练 DDPM，从而得到能够实现多样属性编辑的潜子空间。在高度压缩的潜空间中应用扩散使我们能够在有限的计算资源内模拟丰富的编辑分布。通过广泛的定性和定量实验，我们展示了我们的方法在多样属性编辑方面的有效性。我们还展示了我们的方法在各种面部属性的三维编辑方面的结果。

Nov, 2023

生成模型评估和审计的样本级度量：合成数据的准确性如何？

本文引入了一个三维评估指标（α- 精准度，β- 召回率，真实性），以在领域无关的情况下表征任何生成模型的保真度、多样性和泛化性能，通过样本级二元分类估计三个指标组件，激发了模型审计的新用例。

Feb, 2021

针对条件自然语言生成的分布感知度量

本文提出了一个新的方法对多样本设置下条件语言生成模型进行评估，通过对多个生成的结果进行比较，以区分单一描述和多样性质的差异并提出一些结论。

Sep, 2022

合成表格数据验证：一种基于差异的方法

通过使用发散估计来构建考虑真实数据和合成数据的联合分布的验证指标，本研究在多个领域中使用生成模型的不断增加突出了评估真实数据和合成数据之间相似性的健壮且标准化的验证指标的需求。通过使用概率分类器来近似数据集之间的密度比率，我们特别计算了两种发散：著名的 Kullback-Leibler (KL) 发散和 Jensen-Shannon (JS) 发散。

May, 2024

揭示生成模型评估指标的缺陷及其不公平对待传播模型

本研究旨在系统研究各种基于图像的生成模型，通过在人类感知上度量图像逼真度，发现现有指标与人类感知存在巨大差距；同时也发现现有指标无法适当检测到模型对数据的记忆现象；针对这些问题，我们提出了一种更可靠的特征提取器，并且释放了全部生成的图像数据集、人类评估数据以及计算 16 种公共指标的模块化库，以便更好地促进生成模型的发展和评估。

Jun, 2023

使用训练所提供的分歧量来量化评估 GANs

本文通过使用通常仅用于培训的散度和距离函数来对各种类型的 GAN 性能进行评估，观察了所提出的度量之间的一致性，发现测试时间指标并不支持使用相同训练时间标准的网络，我们还将所提出的度量与人类感知分数进行比较。

Mar, 2018

关于图像标注中的多样性：如何像人类一样描述

本文提出了一种新的度量图像标题多样性的指标，并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量，结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距，并且优化准确度（CIDEr）的模型的多样性很低，同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。

Mar, 2019

评估生成模型的精准度和召回率指标的改进

本研究提出了一种评估度量标准，以明确，非参数化表示真实和生成数据流形，可以分别和可靠地测量图像生成任务中样本的质量和覆盖范围，并且展示了该度量标准在 StyleGAN 和 BigGAN 方面的有效性。同时，我们分析了 StyleGAN 的多个设计变体以更好地了解模型架构，训练方法与样本分布属性之间的关系，并识别出新的改进方法。最后，我们将度量标准扩展到个体样本的感知质量估计，并使用它来研究潜空间插值。

Apr, 2019

相互信息散度：多模态生成模型的统一度量

采用 CLIP 特征的负高斯交叉互信息度量被提出，用于评估 text-to-image generation 和 image captioning 任务的机器智能水平，与竞争指标相比具有一致性、样本简约性和鲁棒性，并在多模态表示学习中得到了广泛的应用。

May, 2022