相关随机向量的检测

Jan, 2024

Detection of Correlated Random Vectors

Dor Elimelech, Wasim Huleihel

TL;DR研究标准正态随机向量之间是否存在相关性的假设检验问题，提出了信息理论下界的评估方法，同时探索了多维情况下观察两个数据库 / 矩阵之间的部分相关性。

Abstract

In this paper, we investigate the problem of deciding whether two standard normal random vectors $\mathsf{X}\in\mathbb{R}^{n}$ and $\mathsf{Y}\in\mathbb{R}^{n}$ are correlated or not. This is formulated as a hypothesis testing problem, where under the null hypothesis, these vectors are

standard normal random vectors correlation hypothesis testing information-theoretic lower bounds multi-dimensional generalization

发现论文，激发创造

相关性检测

研究高维向量假设检验问题，该问题决定观察到的向量是否具有独立的正态分量，或者是否具有一小部分相关分量。相关分量可能具有某个已知的组合结构。通过建立相关子集的大小、相关水平和可能相关集合的结构的上下界，确定最小化风险。研究表明在许多情况下，一些简单的测试具有接近最优的性能，而广义极大似然比测试在一些重要情况下是次优的。

Jun, 2011

测试未标记数据库的依赖性

该研究探讨了如何决定两个随机数据库之间是否存在统计依赖关系，并通过零假设和备择假设构建了一个假设检验问题，其中在零假设下，这两个数据库是统计独立的，而在备择假设下，存在一个未知的行排列使得两个数据库具有已知的联合分布但与零假设的边际分布相同。我们通过研究数据集生成分布的特征、$n$、$d$ 等因素，确定了信息理论上不可能和可能进行最优检验的阈值。此外，我们还分析了当 $d$ 固定时的情况，并推导出了强（错误几乎为零）和弱检测的下界和上界。

Nov, 2023

一种更快的次二次算法用于发现异常相关性

该研究介绍了用于检测强相关变量中的异常对的随机算法，并应用于学习稀疏布尔函数等问题。

Oct, 2015

极小极大化最优条件独立性测试

研究了在条件分布连续的情况下，基于条件独立性测试 $X$ 和 $Y$ 关于 $Z$，$X$ 和 $Y$ 均为离散或连续变量的问题。考虑到条件独立性测试的研究，对于所有绝对连续的条件分布都无法设计非平凡的测试以控制所有的一类错误并确保在有趣的替代情况下仍然具有功效，因此在条件分布的各个自然光滑性假设下研究了条件独立性测试的难度，并以总变差度量指标的临界分离半径为下界和上界。最后，提供了一种新的证明方法以证明 Shah 与 Peters 的结论。

Jan, 2020

一种快速计算距离相关性的算法

本文提出了一个简单的算法，用于计算两个一元随机变量之间的距离协方差。该算法基本上包括两个排序步骤，时间复杂度为 $O (nlog (n))$，比现有技术更快速。该算法的速度可以帮助研究人员探索大型数据集中复杂的依赖结构。

Oct, 2018

作为双样本检验代理的分类准确性

探究在高维情况下对分类器的精度验证，证明一种基于排列组合的测试方法具有连续性及德克斯特拉极限分布的高斯近似测试也具有连续性，并以高斯分布为例进一步研究了线性判别分析和 Hotelling's 测试等方法的功率。

Feb, 2016

一种使用随机投射在高维空间中实现更强大的双样本检验方法

在高维情形下考虑了检验两个多元正态分布均值差异的统计假设检验问题，其中引入了投影方法和 Hotelling T^2 统计量，并针对高维条件下的渐近推理，概述了测试的渐近功效函数以及通往提高其他最先进测试功效的充分条件，最后通过基于 ROC 曲线的实验，验证了该检验方法在高维数据中区分肿瘤数据种类时的优良性能。

Aug, 2011

基于互信息的非参数独立性检验

提出了一种称为 MINT 的新方法，该方法基于互信息的估计，并使用从最近的邻居距离导出的有效熵估计器，从而便于将互信息分解为联合和边际熵，用于检验两个多变量随机向量的独立性，并可将其扩展为基于测量协变量向量与误差向量独立性的新正态线性模型是否适配的卡方检验，并在模拟和真实数据上进行了数值研究。

Nov, 2017

测试离散分布的条件独立性

研究了离散分布的条件独立性检验问题，并给出了样本复杂度的上下界，提出了第一种具有次线性样本复杂度的条件独立性测试器，用于对分布属性进行测试。

Nov, 2017

条件独立性测试的难度和广义协方差测度

本文证明在连续的随机变量情况下测试条件独立性是一个特别困难的问题，我们提出了一种基于非线性回归和基于样本协方差的测试统计量 —— 广义协方差测度（GCM）方法，并在内核岭回归的理论保证下扩展到处理多变量或高维数据的场景，仿真研究表明，GCM 测试具有与现有条件独立性测试相竞争的能力。

Apr, 2018