学习深度核函数进行非参数双样本检验

Feb, 2020

学习深度核函数进行非参数双样本检验

Learning Deep Kernels for Non-Parametric Two-Sample Tests

Feng Liu, Wenkai Xu, Jie Lu, Guangquan Zhang, Arthur Gretton...

TL;DR本文提出了一类基于核函数的两样本检验方法，其使用由深度神经网络参数化的核函数以确定两个样本集是否来自同一分布，适用于高维、复杂的数据，并在基准和实际数据上证明了其卓越的性能。

Abstract

We propose a class of kernel-based two-sample tests, which aim to determine whether two sets of samples are drawn from the same distribution. Our tests are constructed from kernels parameterized by deep neural nets

kernel-based tests deep neural nets distribution high dimensions hypothesis testing

发现论文，激发创造

双样本问题的核方法

提出一种基于重现核希尔伯特空间和大偏差界限的统计检验框架，可用于分析和比较分布，特别对于数据库属性匹配具有很好的性能表现。

May, 2008

用于函数数据的核心双样本检验

基于函数空间定义内核的最大均值差异（MMD）的非参数二样本检验程序，用于测试两个函数样本是否具有相同的潜在分布，建立在数据集维数增加情况下 MMD-based 测试效率的基础上。

Aug, 2020

高维下核和距离非参数假设检验能力减弱

探讨了决策理论问题中的非参数双样本检验与独立性检验，并指出使用核函数和点对之间的距离作为解决方案在高维设置中受到误解，测试的功率实际上随着维度的增加按多项式下降，提出了公平的替代假设，并阐明了核带宽选择中的中位数启发式的理论洞察力。

Jun, 2014

线性时间核两样本检验在均差替代下的高维能力

本文对一种设计用于一般替代情况的流行的非参数双样本测试的功率进行了明确表征，并探讨了这些针对一般替代情况的测试在面对简单情况时的表现，具有高维场景下一般非参数测试的第一次明确功率推导以及如何在两个分布均值不同时，通过高斯核推导出最大均值偏差统计量的功率的性质。

Nov, 2014

使用概率分布的解析表示进行快速的双样本检验

该研究提出了一类非参数两样本检验，其代价与样本大小成线性关系；文中给出了两种基于代表每个分布的解析函数距离集合的检验方法，其中第一种检验使用平滑的经验特征函数来表示分布，第二种使用再生核 Hilbert 空间中的分布嵌入。该方法具有更好的功率 / 时间平衡，并在高维度情况下保留了性能优势。

Jun, 2015

通过非参数散度估计在样本集上的核函数

该论文提出了一种基于核函数的机器学习算法，可以通过对数据集的分组进行处理，采用独立同分布的样本集作为数据点，利用非参数估计器提取核函数特征从而实现多种分类、回归和异常检测等任务。

Feb, 2012

基于核函数和距离的高维度双样本检验的适应性和计算 - 统计权衡

本文比较了一些经典的核方法和能量统计测试在不同类型的两组随机变量下的性能，发现在测试显著性差异和分布不同上，这些测试和基于第一时刻测试的特殊高维 t-test 有同样的功效。

Aug, 2015

利用辅助深度生成模型的核变点检测

本文提出了一种基于 KL-CPD 的核学习框架，用于时间序列变点检测。该方法通过辅助生成模型优化测试功率的下限，使 Kernel two-sample test 在实际应用中获得了数据驱动的核，可以检测不同类型的变点，并在基准数据集和模拟研究的比较评估中明显优于其他现有方法。

Jan, 2019

非参数双样本检验的敌对攻击与防御

研究发现，非参数两样本检验存在失效模式，并通过对抗攻击提出了相应的防御策略，包括理论证明攻击的隐蔽性边界和检验力的下限以及通过集成攻击框架和 max-min 优化技术提高非参数两样本检验的鲁棒性。

Feb, 2022

序列预测双样本和独立性检验

本研究探讨了顺序非参数两样本和独立性检验的问题，提出了一种基于预测的赌博策略，用于解决高维结构化数据上核函数的选择问题。我们在实验中证明了这种方法优于基于核的方法，即使在数据分布随时间漂移的情况下，也仍然有效强大。

Apr, 2023