用于函数数据的核心双样本检验

Aug, 2020

A Kernel Two-Sample Test for Functional Data

George Wynne, Andrew B. Duncan

TL;DR基于函数空间定义内核的最大均值差异（MMD）的非参数二样本检验程序，用于测试两个函数样本是否具有相同的潜在分布，建立在数据集维数增加情况下 MMD-based 测试效率的基础上。

Abstract

We propose a nonparametric two-sample test procedure based on Maximum Mean Discrepancy (MMD) for testing the hypothesis that two samples of functions have the same underlying distribution, using kernels defined o

nonparametric maximum mean discrepancy function spaces efficiency test

发现论文，激发创造

MMD-FUSE: 无需数据分割的双样本检验内核学习和组合

本研究提出了一种基于最大均值差异（MMD）的双样本检验，通过适应其核集合，提出了新的统计量。我们进一步展示了这些核如何在无需数据拆分或置换而根据数据来选择，这项技术广泛应用于基于置换的 MMD 检验并包括深度核的使用。我们强调了 MMD-FUSE 测试在合成和实际数据上的适用性，并比较了其在功率方面的表现与当前最先进的核测试。

Jun, 2023

双样本问题的核方法

提出一种基于重现核希尔伯特空间和大偏差界限的统计检验框架，可用于分析和比较分布，特别对于数据库属性匹配具有很好的性能表现。

May, 2008

基于核的两样本测验中的部分标识问题与数据测量误差

在机器学习应用中，非参数的两样本检验方法，如最大均值差异（MMD），通常用于检测两个分布之间的差异。然而，现有文献的大部分假设可以获得两个目标分布的无误差样本。我们放松了这个假设，研究了在 ε 污染下对 MMD 的估计，其中可能存在一个非随机的 ε 比例将一个分布错误地分组到另一个分布中。我们展示了在 ε 污染下，典型的 MMD 估计是不可靠的。相反，我们研究了 MMD 的部分识别，并描述了包含真实未知 MMD 的锐利上下界。我们提出了一种估计这些界的方法，并证明随着样本量的增加，它给出了收敛速度比其他方法更快的对 MMD 最尖锐的界估计。通过使用三个数据集，我们经验证明我们的方法优于其他替代方法：它给出了低错误覆盖率的紧致界。

Aug, 2023

最大均值差异遇见神经网络：Radon-Kolmogorov-Smirnov 检验

通过最大均匀差异（MMD）测试及相关的理论及实验证明了 Radon-Kolmogorov-Smirnov（RKS）测试是一种能够以多个维度和较高平滑性阶数为基础的、具有全功率的测试方法，与神经网络密切相关。

Sep, 2023

FastMMD: 循环偏差集成实现高效的双样本检验

本文提出了一种名为 FastMMD 的高效方法来加速最大平均差异（MMD）的计算，通过使用 Bochner 定理和傅里叶变换，将 MMD 等效变换为基于正弦分量的线性组合的幅度期望，将 MMD 计算的时间复杂度降低到 $O (L N d)$。实验结果表明，FastMMD 具有与精确 MMD 类似的准确性，同时计算速度更快且方差更低。

May, 2014

基于核函数和距离的高维度双样本检验的适应性和计算 - 统计权衡

本文比较了一些经典的核方法和能量统计测试在不同类型的两组随机变量下的性能，发现在测试显著性差异和分布不同上，这些测试和基于第一时刻测试的特殊高维 t-test 有同样的功效。

Aug, 2015

学习深度核函数进行非参数双样本检验

本文提出了一类基于核函数的两样本检验方法，其使用由深度神经网络参数化的核函数以确定两个样本集是否来自同一分布，适用于高维、复杂的数据，并在基准和实际数据上证明了其卓越的性能。

Feb, 2020

线性时间核两样本检验在均差替代下的高维能力

本文对一种设计用于一般替代情况的流行的非参数双样本测试的功率进行了明确表征，并探讨了这些针对一般替代情况的测试在面对简单情况时的表现，具有高维场景下一般非参数测试的第一次明确功率推导以及如何在两个分布均值不同时，通过高斯核推导出最大均值偏差统计量的功率的性质。

Nov, 2014

可解释分布比较中的最大均值差异的变量选择

这篇研究论文研究了在两样本检验中的变量选择问题，基于最大平均差异（MMD）的两样本检验的能力，通过优化自适应相关检测（ARD）权重来确定引起两个分布差异的变量，提出了考虑稀疏正则化的两种方法以解决选择适当正则化参数的问题，并通过与基线方法的系统比较验证了所提出方法的有效性，在高维交通仿真数据的探索性分析中展示了所提方法的实用性，同时也提供了变量选择在两样本检验中的严格定义的初步理论分析。

Nov, 2023

基于距离和 RKHS 统计量在假设检验中的等效性

本研究提供了一个统一的框架，将统计学文献中的能量距离和距离协方差与机器学习中的最大均值差（MMD）联系起来，并研究了这些统计量在一些概率分布下的可靠性和对多参数数据的适用性。

Jul, 2012