用于函数数据的核心双样本检验
本研究提出了一种基于最大均值差异(MMD)的双样本检验,通过适应其核集合,提出了新的统计量。我们进一步展示了这些核如何在无需数据拆分或置换而根据数据来选择,这项技术广泛应用于基于置换的 MMD 检验并包括深度核的使用。我们强调了 MMD-FUSE 测试在合成和实际数据上的适用性,并比较了其在功率方面的表现与当前最先进的核测试。
Jun, 2023
在机器学习应用中,非参数的两样本检验方法,如最大均值差异(MMD),通常用于检测两个分布之间的差异。然而,现有文献的大部分假设可以获得两个目标分布的无误差样本。我们放松了这个假设,研究了在 ε 污染下对 MMD 的估计,其中可能存在一个非随机的 ε 比例将一个分布错误地分组到另一个分布中。我们展示了在 ε 污染下,典型的 MMD 估计是不可靠的。相反,我们研究了 MMD 的部分识别,并描述了包含真实未知 MMD 的锐利上下界。我们提出了一种估计这些界的方法,并证明随着样本量的增加,它给出了收敛速度比其他方法更快的对 MMD 最尖锐的界估计。通过使用三个数据集,我们经验证明我们的方法优于其他替代方法:它给出了低错误覆盖率的紧致界。
Aug, 2023
通过最大均匀差异(MMD)测试及相关的理论及实验证明了 Radon-Kolmogorov-Smirnov(RKS)测试是一种能够以多个维度和较高平滑性阶数为基础的、具有全功率的测试方法,与神经网络密切相关。
Sep, 2023
本文提出了一种名为 FastMMD 的高效方法来加速最大平均差异(MMD)的计算,通过使用 Bochner 定理和傅里叶变换,将 MMD 等效变换为基于正弦分量的线性组合的幅度期望,将 MMD 计算的时间复杂度降低到 $O (L N d)$。实验结果表明,FastMMD 具有与精确 MMD 类似的准确性,同时计算速度更快且方差更低。
May, 2014
本文比较了一些经典的核方法和能量统计测试在不同类型的两组随机变量下的性能,发现在测试显著性差异和分布不同上,这些测试和基于第一时刻测试的特殊高维 t-test 有同样的功效。
Aug, 2015
本文提出了一类基于核函数的两样本检验方法,其使用由深度神经网络参数化的核函数以确定两个样本集是否来自同一分布,适用于高维、复杂的数据,并在基准和实际数据上证明了其卓越的性能。
Feb, 2020
本文对一种设计用于一般替代情况的流行的非参数双样本测试的功率进行了明确表征,并探讨了这些针对一般替代情况的测试在面对简单情况时的表现,具有高维场景下一般非参数测试的第一次明确功率推导以及如何在两个分布均值不同时,通过高斯核推导出最大均值偏差统计量的功率的性质。
Nov, 2014
这篇研究论文研究了在两样本检验中的变量选择问题,基于最大平均差异(MMD)的两样本检验的能力,通过优化自适应相关检测(ARD)权重来确定引起两个分布差异的变量,提出了考虑稀疏正则化的两种方法以解决选择适当正则化参数的问题,并通过与基线方法的系统比较验证了所提出方法的有效性,在高维交通仿真数据的探索性分析中展示了所提方法的实用性,同时也提供了变量选择在两样本检验中的严格定义的初步理论分析。
Nov, 2023
本研究提供了一个统一的框架,将统计学文献中的能量距离和距离协方差与机器学习中的最大均值差(MMD)联系起来,并研究了这些统计量在一些概率分布下的可靠性和对多参数数据的适用性。
Jul, 2012