测试未标记数据库的依赖性
探究在高维情况下对分类器的精度验证,证明一种基于排列组合的测试方法具有连续性及德克斯特拉极限分布的高斯近似测试也具有连续性,并以高斯分布为例进一步研究了线性判别分析和 Hotelling's 测试等方法的功率。
Feb, 2016
我们提出了一种用于检验 $d$ 个可能连续或不连续的随机变量是否相互独立的方法,该方法利用了二元 Hilbert-Schmidt 独立性准则(HSIC)的思想并允许任意数量的变量,将 $d$ 维联合分布和边缘乘积嵌入到再生核 Hilbert 空间中并定义 $d$ 变量的 Hilbert-Schmidt 独立性准则(dHSIC)为嵌入之间的平方距离。在总体情况下,只要核是特征的,dHSIC 的值为零则说明 $d$ 个变量相互独立。基于对 dHSIC 的经验估计,我们定义了三种不同的非参数假设检验:置换检验、自举检验和基于 Gamma 近似的检验。我们证明了置换检验达到了显著水平,并且自举检验也达到了点态渐近显著水平以及点态渐近一致性(即它能够在大样本极限中检测任何类型的固定依赖性)。Gamma 近似没有这些保证,但它在计算方面非常快,并且对于较小的 $d$,它的性能良好。最后,我们将该检验应用于因果发现问题。
Mar, 2016
本文研究了如何在关系系统中估计数据之间的独立性,提出了一种基于核均值嵌入的方法,用于定义条件和边缘独立性测试,并在结构假设下实现了可伸缩的核测试方法。实证研究表明,该方法在合成网络和半合成网络等数据集上比基于核的独立性测试的现有方法更为有效。
Jun, 2022
本研究探讨了顺序非参数两样本和独立性检验的问题,提出了一种基于预测的赌博策略,用于解决高维结构化数据上核函数的选择问题。我们在实验中证明了这种方法优于基于核的方法,即使在数据分布随时间漂移的情况下,也仍然有效强大。
Apr, 2023
在这项工作中,我们介绍了一种推广的情况,其中未标记的样本来自两类的混合物,研究了在最大均值差异(MMD)分离条件下非参数密度类的极小样本复杂性,并且通过用神经网络参数化的核函数在两个任务上进行了实证性能研究,即在探测希格斯玻色子和检测植入的 DDPM 生成图像与 CIFAR-10 图像之间。对于这两个问题,我们确认了理论预测的非对称的 m 与 n 之间的交换比例存在。
Aug, 2023
探讨了决策理论问题中的非参数双样本检验与独立性检验,并指出使用核函数和点对之间的距离作为解决方案在高维设置中受到误解,测试的功率实际上随着维度的增加按多项式下降,提出了公平的替代假设,并阐明了核带宽选择中的中位数启发式的理论洞察力。
Jun, 2014
本文以最小极小值检验的角度考虑解决在高维信息检测中,两个离散随机图集合的假设检验问题,并提出了 Frobenius 范数和算子范数算法,能在小样本量下有效地求解较为稀疏的两种份离散图模型问题。
Jul, 2017
提出了一种基于条件互信息和局部置换方案的全非参数连续数据测试方法,能够适应强非线性相关性,表现优于基于核的测试,并在小样本和高维条件下可靠地模拟零分布。
Sep, 2017