生成模型的基于属性的可解释评估指标
通过提出新的分布的精度和召回率的概念,针对生成模型提出了一种新的评估方法,能够分离出分布的两个维度,从而区分生成样本的质量和目标分布的覆盖范围,是一种有效的评价生成模型的算法。
May, 2018
现有的属性编辑方法将语义属性视为二进制,导致每个属性只能进行一次编辑。然而,如眼镜、微笑或发型等属性展示了广泛的多样性。在本研究中,我们通过建模属性编辑的多维性质来提出 “多样属性编辑” 的任务,从而使用户能够为每个属性生成多个合理的编辑。我们利用预训练 GAN 的分离潜空间和训练一个去噪扩散概率模型(DDPM)来学习用于多样编辑的潜分布。具体而言,我们通过嵌入具有单个属性变化的图像对来训练 DDPM,从而得到能够实现多样属性编辑的潜子空间。在高度压缩的潜空间中应用扩散使我们能够在有限的计算资源内模拟丰富的编辑分布。通过广泛的定性和定量实验,我们展示了我们的方法在多样属性编辑方面的有效性。我们还展示了我们的方法在各种面部属性的三维编辑方面的结果。
Nov, 2023
本文引入了一个三维评估指标(α- 精准度,β- 召回率,真实性),以在领域无关的情况下表征任何生成模型的保真度、多样性和泛化性能,通过样本级二元分类估计三个指标组件,激发了模型审计的新用例。
Feb, 2021
通过使用发散估计来构建考虑真实数据和合成数据的联合分布的验证指标,本研究在多个领域中使用生成模型的不断增加突出了评估真实数据和合成数据之间相似性的健壮且标准化的验证指标的需求。通过使用概率分类器来近似数据集之间的密度比率,我们特别计算了两种发散:著名的 Kullback-Leibler (KL) 发散和 Jensen-Shannon (JS) 发散。
May, 2024
本研究旨在系统研究各种基于图像的生成模型,通过在人类感知上度量图像逼真度,发现现有指标与人类感知存在巨大差距;同时也发现现有指标无法适当检测到模型对数据的记忆现象;针对这些问题,我们提出了一种更可靠的特征提取器,并且释放了全部生成的图像数据集、人类评估数据以及计算 16 种公共指标的模块化库,以便更好地促进生成模型的发展和评估。
Jun, 2023
本文通过使用通常仅用于培训的散度和距离函数来对各种类型的 GAN 性能进行评估,观察了所提出的度量之间的一致性,发现测试时间指标并不支持使用相同训练时间标准的网络,我们还将所提出的度量与人类感知分数进行比较。
Mar, 2018
本文提出了一种新的度量图像标题多样性的指标,并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量,结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距,并且优化准确度(CIDEr)的模型的多样性很低,同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。
Mar, 2019
本研究提出了一种评估度量标准,以明确,非参数化表示真实和生成数据流形, 可以分别和可靠地测量图像生成任务中样本的质量和覆盖范围, 并且展示了该度量标准在 StyleGAN 和 BigGAN 方面的有效性。同时,我们分析了 StyleGAN 的多个设计变体以更好地了解模型架构,训练方法与样本分布属性之间的关系,并识别出新的改进方法。最后,我们将度量标准扩展到个体样本的感知质量估计,并使用它来研究潜空间插值。
Apr, 2019
采用 CLIP 特征的负高斯交叉互信息度量被提出,用于评估 text-to-image generation 和 image captioning 任务的机器智能水平,与竞争指标相比具有一致性、样本简约性和鲁棒性,并在多模态表示学习中得到了广泛的应用。
May, 2022