模型比较的信息特征

NIPSOct, 2018

Informative Features for Model Comparison

Wittawat Jitkrittum, Heishiro Kanagawa, Patsorn Sangkloy, James Hays, Bernhard Schölkopf...

TL;DR本文介绍了两种新的非参数统计测试方法，能够快速且可解释地测量两种候选模型拟合程度的优劣，并找到一些区域作为信息特征来描述它们的差异，实验结果表明，该方法在比较 GAN 模型方面具有优越性能。

Abstract

Given two candidate models, and a set of target observations, we address the problem of measuring the relative goodness of fit of the two models. We propose two new →

candidate models goodness of fit statistical tests informative features gan models

发现论文，激发创造

一个线性时间核拟合优度测试

我们提出了一种新的适应性拟合优度检验方法，通过最小化假阴性率，学习最能表明观察样本与参考模型之间差异的测试特征来构建这些特征，我们采用了 Stein 法。该方法在计算成本上是线性的，并且在实验中的表现优于前期线性测试的表现，在高维度和可以利用模型结构的情况下，我们的合适性检验的表现远好于基于最大均值偏差的二次时间两样本检验，其中样本是从模型中抽取的。

May, 2017

具有最大测试功效的可解释分布特征

该研究提出了两个基于概率分布的半度量，通过优化测试功率的下界，使用空间或频率位置的解析函数的期望之差的总和作为距离度量来最大化概率分布的可分辨性，并返回可解释的特征，用于高维文本和图像数据上进行线性时间测试。

May, 2016

生成模型中模型选择的相对相似性测试

该研究提出了一种基于最大平均差异度量方法的概率生成模型选择统计测试，在对深度生成模型进行实验时，该测试能够对不同参数和训练设置下的模型性能进行有意义的排名。

Nov, 2015

使用概率分布的解析表示进行快速的双样本检验

该研究提出了一类非参数两样本检验，其代价与样本大小成线性关系；文中给出了两种基于代表每个分布的解析函数距离集合的检验方法，其中第一种检验使用平滑的经验特征函数来表示分布，第二种使用再生核 Hilbert 空间中的分布嵌入。该方法具有更好的功率 / 时间平衡，并在高维度情况下保留了性能优势。

Jun, 2015

评估生成模型的精准度和召回率指标的改进

本研究提出了一种评估度量标准，以明确，非参数化表示真实和生成数据流形，可以分别和可靠地测量图像生成任务中样本的质量和覆盖范围，并且展示了该度量标准在 StyleGAN 和 BigGAN 方面的有效性。同时，我们分析了 StyleGAN 的多个设计变体以更好地了解模型架构，训练方法与样本分布属性之间的关系，并识别出新的改进方法。最后，我们将度量标准扩展到个体样本的感知质量估计，并使用它来研究潜空间插值。

Apr, 2019

拟合优度的核检验

提出了一种非参数统计检验方法，用于判断给定样本是否来自目标密度函数，其中好度量采用使用再生核希尔伯特空间函数构造的发散度，检验统计量是基于目标密度和内核的对数梯度的经验估计的 V - 统计量，并使用野外引导过程估计空分布，适用于定量近似马尔可夫链蒙特卡罗方法的收敛、统计模型检验和评估非参数密度估计中的适配质量与模型复杂度。

Feb, 2016

基于序列估计的非参数仪器回归拟合优度检验

本文针对非参数工具回归模型，提出了几种限制性规格检验。基于级数估计器，建立了测试统计量，允许对一般模型进行参数或非参数规格的测试，以及对回归向量外生性的测试。文中推导出了测试在正确规格下的渐近分布，并对任何另一种模型的一致性进行了展示。在局部替代假设的序列下，导出了测试的渐近分布。此外，建立了一类替代假设的统一一致性，其与零假设距离适当缩小随着样本大小的增加。蒙特卡罗研究检验统计量的有限样本性能。

Sep, 2019

一种无模型的监督学习特征影响程度检测方法

本文提出了一种新的方法来测试模型中不同特征对响应值的影响，能够适用于线性回归和高斯混合模型，并证明了该方法在足够样本数量下能达到完全的统计功效。

Jun, 2023

生成模型评估注意事项

概率生成模型评估标准的独立性存在着许多亟需关注的性质，本文重点评估了影像模型，阐明对于高维数据当前最常用的三个标准，即平均对数似然、Parzen 窗口估计和样本视觉保真度，这些几乎是相互独立的；因此，好的表现不一定意味着好的其他标准的表现，在评估生成模型的性能时需要针对其预期应用直接进行评估，并且通常应避免使用 Parzen 窗口方法。

Nov, 2015

基于特征的性能预测模型的泛化能力研究：基准测试的统计分析

该研究通过对各种基准套件的算法性能预测模型的泛化能力进行考察，比较问题集合的统计相似性和基于探索性景观分析特征的性能预测模型的准确性，我们发现这两个指标之间存在着正相关关系。具体来说，当训练和测试套件之间的高维特征值分布缺乏统计显著性时，模型往往能够很好地进行泛化，即测试误差与训练误差处于同一范围内。两个实验证实了这些发现：一个涉及标准基准套件 BBOB 和 CEC 集合，另一个使用了五个由 BBOB 问题实例的仿射组合构成的集合。

May, 2024