测试未标记数据库的依赖性

Nov, 2023

Testing Dependency of Unlabeled Databases

Vered Paslev, Wasim Huleihel

TL;DR该研究探讨了如何决定两个随机数据库之间是否存在统计依赖关系，并通过零假设和备择假设构建了一个假设检验问题，其中在零假设下，这两个数据库是统计独立的，而在备择假设下，存在一个未知的行排列使得两个数据库具有已知的联合分布但与零假设的边际分布相同。我们通过研究数据集生成分布的特征、$n$、$d$ 等因素，确定了信息理论上不可能和可能进行最优检验的阈值。此外，我们还分析了当 $d$ 固定时的情况，并推导出了强（错误几乎为零）和弱检测的下界和上界。

Abstract

In this paper, we investigate the problem of deciding whether two random databases $\mathsf{X}\in\mathcal{X}^{n\times d}$ and $\mathsf{Y}\in\mathcal{Y}^{n\times d}$ are statistically dependent or not. This is formulated as a →

databases statistical dependence hypothesis testing spectral properties detection bounds

发现论文，激发创造

相关随机向量的检测

研究标准正态随机向量之间是否存在相关性的假设检验问题，提出了信息理论下界的评估方法，同时探索了多维情况下观察两个数据库 / 矩阵之间的部分相关性。

Jan, 2024

作为双样本检验代理的分类准确性

探究在高维情况下对分类器的精度验证，证明一种基于排列组合的测试方法具有连续性及德克斯特拉极限分布的高斯近似测试也具有连续性，并以高斯分布为例进一步研究了线性判别分析和 Hotelling's 测试等方法的功率。

Feb, 2016

基于核的联合独立性检验

我们提出了一种用于检验 $d$ 个可能连续或不连续的随机变量是否相互独立的方法，该方法利用了二元 Hilbert-Schmidt 独立性准则（HSIC）的思想并允许任意数量的变量，将 $d$ 维联合分布和边缘乘积嵌入到再生核 Hilbert 空间中并定义 $d$ 变量的 Hilbert-Schmidt 独立性准则（dHSIC）为嵌入之间的平方距离。在总体情况下，只要核是特征的，dHSIC 的值为零则说明 $d$ 个变量相互独立。基于对 dHSIC 的经验估计，我们定义了三种不同的非参数假设检验：置换检验、自举检验和基于 Gamma 近似的检验。我们证明了置换检验达到了显著水平，并且自举检验也达到了点态渐近显著水平以及点态渐近一致性（即它能够在大样本极限中检测任何类型的固定依赖性）。Gamma 近似没有这些保证，但它在计算方面非常快，并且对于较小的 $d$，它的性能良好。最后，我们将该检验应用于因果发现问题。

Mar, 2016

关系依赖关系的非参数推断

本文研究了如何在关系系统中估计数据之间的独立性，提出了一种基于核均值嵌入的方法，用于定义条件和边缘独立性测试，并在结构假设下实现了可伸缩的核测试方法。实证研究表明，该方法在合成网络和半合成网络等数据集上比基于核的独立性测试的现有方法更为有效。

Jun, 2022

测试离散分布的条件独立性

研究了离散分布的条件独立性检验问题，并给出了样本复杂度的上下界，提出了第一种具有次线性样本复杂度的条件独立性测试器，用于对分布属性进行测试。

Nov, 2017

序列预测双样本和独立性检验

本研究探讨了顺序非参数两样本和独立性检验的问题，提出了一种基于预测的赌博策略，用于解决高维结构化数据上核函数的选择问题。我们在实验中证明了这种方法优于基于核的方法，即使在数据分布随时间漂移的情况下，也仍然有效强大。

Apr, 2023

基于核心的测试用于无似然假设检验

在这项工作中，我们介绍了一种推广的情况，其中未标记的样本来自两类的混合物，研究了在最大均值差异（MMD）分离条件下非参数密度类的极小样本复杂性，并且通过用神经网络参数化的核函数在两个任务上进行了实证性能研究，即在探测希格斯玻色子和检测植入的 DDPM 生成图像与 CIFAR-10 图像之间。对于这两个问题，我们确认了理论预测的非对称的 m 与 n 之间的交换比例存在。

Aug, 2023

高维下核和距离非参数假设检验能力减弱

探讨了决策理论问题中的非参数双样本检验与独立性检验，并指出使用核函数和点对之间的距离作为解决方案在高维设置中受到误解，测试的功率实际上随着维度的增加按多项式下降，提出了公平的替代假设，并阐明了核带宽选择中的中位数启发式的理论洞察力。

Jun, 2014

非齐次随机图的双样本假设检验

本文以最小极小值检验的角度考虑解决在高维信息检测中，两个离散随机图集合的假设检验问题，并提出了 Frobenius 范数和算子范数算法，能在小样本量下有效地求解较为稀疏的两种份离散图模型问题。

Jul, 2017

基于最近邻估计器的条件互信息独立性检验

提出了一种基于条件互信息和局部置换方案的全非参数连续数据测试方法，能够适应强非线性相关性，表现优于基于核的测试，并在小样本和高维条件下可靠地模拟零分布。

Sep, 2017