旨在要求泛化的 GAN 基准测试
本文研究了生成对抗网络(GAN)的评估方法,发现基于核最大均值差(MMD)和最近邻(1-NN)等指标,可以较好地满足评估需要,同时具备区分真实样本与生成样本的性质,并探究了几种著名 GAN 模型的特性。
Jun, 2018
本文通过使用通常仅用于培训的散度和距离函数来对各种类型的 GAN 性能进行评估,观察了所提出的度量之间的一致性,发现测试时间指标并不支持使用相同训练时间标准的网络,我们还将所提出的度量与人类感知分数进行比较。
Mar, 2018
本研究旨在系统研究各种基于图像的生成模型,通过在人类感知上度量图像逼真度,发现现有指标与人类感知存在巨大差距;同时也发现现有指标无法适当检测到模型对数据的记忆现象;针对这些问题,我们提出了一种更可靠的特征提取器,并且释放了全部生成的图像数据集、人类评估数据以及计算 16 种公共指标的模块化库,以便更好地促进生成模型的发展和评估。
Jun, 2023
本研究提出了一种评估度量标准,以明确,非参数化表示真实和生成数据流形, 可以分别和可靠地测量图像生成任务中样本的质量和覆盖范围, 并且展示了该度量标准在 StyleGAN 和 BigGAN 方面的有效性。同时,我们分析了 StyleGAN 的多个设计变体以更好地了解模型架构,训练方法与样本分布属性之间的关系,并识别出新的改进方法。最后,我们将度量标准扩展到个体样本的感知质量估计,并使用它来研究潜空间插值。
Apr, 2019
给定一个模型和一个形式语法,该方法分配一个表示模型对未见样本进行泛化能力的得分,该得分与模型的训练数据量成反比。通过使用形式语言作为基准,我们评估了不同架构的神经网络,并发现使用最小描述长度目标(MDL)进行训练的模型比使用标准损失函数进行训练的模型具有更好的泛化能力,并且需要更少的数据量。
Aug, 2023
通过提出新的分布的精度和召回率的概念,针对生成模型提出了一种新的评估方法,能够分离出分布的两个维度,从而区分生成样本的质量和目标分布的覆盖范围,是一种有效的评价生成模型的算法。
May, 2018
本文研究了生成式对抗网络的判别器集合,证明了其线性张成是连续函数有界集合的密集子集,则其是判别性的,我们还通过不同的评价指标开发了广义边界,阐明了实际性能。
Nov, 2017
通过引入基于未训练随机 GNN 提取的特征的几个度量标准,完全测试了这些度量标准衡量生成的图的多样性和保真度的能力、其样本和计算效率,并推荐了两种新的度量标准,以用于对 GGM 的评估。
Jan, 2022
本文研究了自然语言处理模型中,关于深度神经网络的推广问题,提出了几种新的推广度量标准并作了实证研究。研究表明,通过拟合嵌入矩阵的形状的度量标准与与推广表现有着更强的相关性。
Feb, 2022