数据损坏下的鲁棒核假设检验
提出了一种差分隐私保护的假设检验方法,扩展了经典的非隐私保护排列检验到隐私保护场景,从而实现有限样本有效性和差分隐私的同时保证。通过引入基于核的测试统计量,提出了两种不同差分隐私保护的核测试方法(dpMMD 和 dpHSIC),具有简单易施行、适用于多种数据类型、在不同隐私保护模式下达到极小 - 最优动力的特点。经实证评估,在各种合成和实际场景下展现出竞争力,突显其实际价值。公开提供的代码有助于我们该方法的实现。
Oct, 2023
探讨了决策理论问题中的非参数双样本检验与独立性检验,并指出使用核函数和点对之间的距离作为解决方案在高维设置中受到误解,测试的功率实际上随着维度的增加按多项式下降,提出了公平的替代假设,并阐明了核带宽选择中的中位数启发式的理论洞察力。
Jun, 2014
文中提出了一种基于核分布嵌入的非参数假设检验的野生自助法。该方法适用于一类基于 $V$- 统计量的核检验,通过这种方法可以构建一致性的检验。实验表明,该方法在合成样本、音频数据以及 Gibbs 采样的性能基准测试中表现出很强的性能。
Aug, 2014
文中提出了一种新的非参数化方法用于测试两个随机过程之间的独立性,使用了 Hilbert Schmidt 独立性准则(HSIC)作为检验统计量,该方法针对从随机过程中绘制的样本计算 HSIC 的渐近行为得到了建立,并且推荐了一种可替代的 p 值的一致估计,与线性方法相比,该新测试程序可以发现被线性方法忽略的依赖关系,而先前的自举程序会返回大量错误的结果。
Feb, 2014
基于函数空间定义内核的最大均值差异(MMD)的非参数二样本检验程序,用于测试两个函数样本是否具有相同的潜在分布,建立在数据集维数增加情况下 MMD-based 测试效率的基础上。
Aug, 2020
我们提出了一个通用的框架,用于构建针对大类非参数测试问题的强大的连续假设检验。该框架可以统一处理多个经典任务,如双样本测试、独立性测试和条件独立性测试,以及现代问题,如对机器学习模型的对抗鲁棒性测试。我们的方法对传统批量测试具有以下优势:1) 它持续监控在线数据流并有效地聚合针对零假设的证据,2) 它在不需要多重测试校正的情况下对类型 I 错误进行严格控制,3) 它根据问题的未知难度调整样本大小要求。我们在测试通过投票框架(testing-by-betting framework)中利用机器学习模型的表示能力方面开发了一种基于原则的方法,这是一种用于设计连续测试的博弈论方法。在合成和真实数据集上的实证结果表明,使用我们的通用框架实例化的测试在多个任务上与专门的基准测试相竞争。
Oct, 2023
我们提出了一种用于检验 $d$ 个可能连续或不连续的随机变量是否相互独立的方法,该方法利用了二元 Hilbert-Schmidt 独立性准则(HSIC)的思想并允许任意数量的变量,将 $d$ 维联合分布和边缘乘积嵌入到再生核 Hilbert 空间中并定义 $d$ 变量的 Hilbert-Schmidt 独立性准则(dHSIC)为嵌入之间的平方距离。在总体情况下,只要核是特征的,dHSIC 的值为零则说明 $d$ 个变量相互独立。基于对 dHSIC 的经验估计,我们定义了三种不同的非参数假设检验:置换检验、自举检验和基于 Gamma 近似的检验。我们证明了置换检验达到了显著水平,并且自举检验也达到了点态渐近显著水平以及点态渐近一致性(即它能够在大样本极限中检测任何类型的固定依赖性)。Gamma 近似没有这些保证,但它在计算方面非常快,并且对于较小的 $d$,它的性能良好。最后,我们将该检验应用于因果发现问题。
Mar, 2016
本研究探讨了顺序非参数两样本和独立性检验的问题,提出了一种基于预测的赌博策略,用于解决高维结构化数据上核函数的选择问题。我们在实验中证明了这种方法优于基于核的方法,即使在数据分布随时间漂移的情况下,也仍然有效强大。
Apr, 2023
本文对一种设计用于一般替代情况的流行的非参数双样本测试的功率进行了明确表征,并探讨了这些针对一般替代情况的测试在面对简单情况时的表现,具有高维场景下一般非参数测试的第一次明确功率推导以及如何在两个分布均值不同时,通过高斯核推导出最大均值偏差统计量的功率的性质。
Nov, 2014