从数据中推断相互独立的最精细模式
我们提出了一种用于检验 $d$ 个可能连续或不连续的随机变量是否相互独立的方法,该方法利用了二元 Hilbert-Schmidt 独立性准则(HSIC)的思想并允许任意数量的变量,将 $d$ 维联合分布和边缘乘积嵌入到再生核 Hilbert 空间中并定义 $d$ 变量的 Hilbert-Schmidt 独立性准则(dHSIC)为嵌入之间的平方距离。在总体情况下,只要核是特征的,dHSIC 的值为零则说明 $d$ 个变量相互独立。基于对 dHSIC 的经验估计,我们定义了三种不同的非参数假设检验:置换检验、自举检验和基于 Gamma 近似的检验。我们证明了置换检验达到了显著水平,并且自举检验也达到了点态渐近显著水平以及点态渐近一致性(即它能够在大样本极限中检测任何类型的固定依赖性)。Gamma 近似没有这些保证,但它在计算方面非常快,并且对于较小的 $d$,它的性能良好。最后,我们将该检验应用于因果发现问题。
Mar, 2016
研究了在条件分布连续的情况下,基于条件独立性测试 $X$ 和 $Y$ 关于 $Z$,$X$ 和 $Y$ 均为离散或连续变量的问题。考虑到条件独立性测试的研究,对于所有绝对连续的条件分布都无法设计非平凡的测试以控制所有的一类错误并确保在有趣的替代情况下仍然具有功效,因此在条件分布的各个自然光滑性假设下研究了条件独立性测试的难度,并以总变差度量指标的临界分离半径为下界和上界。最后,提供了一种新的证明方法以证明 Shah 与 Peters 的结论。
Jan, 2020
多个变量间的可逆归一化和独立性,基于复杂有条件概率分布的详细模型,讨论了直接相互信息传递和因果关系方向的多要素格兰杰因果关系分析方法。
Nov, 2023
该研究探讨了如何决定两个随机数据库之间是否存在统计依赖关系,并通过零假设和备择假设构建了一个假设检验问题,其中在零假设下,这两个数据库是统计独立的,而在备择假设下,存在一个未知的行排列使得两个数据库具有已知的联合分布但与零假设的边际分布相同。我们通过研究数据集生成分布的特征、$n$、$d$ 等因素,确定了信息理论上不可能和可能进行最优检验的阈值。此外,我们还分析了当 $d$ 固定时的情况,并推导出了强(错误几乎为零)和弱检测的下界和上界。
Nov, 2023
提出了一种称为 MINT 的新方法,该方法基于互信息的估计,并使用从最近的邻居距离导出的有效熵估计器,从而便于将互信息分解为联合和边际熵,用于检验两个多变量随机向量的独立性,并可将其扩展为基于测量协变量向量与误差向量独立性的新正态线性模型是否适配的卡方检验,并在模拟和真实数据上进行了数值研究。
Nov, 2017
针对连续随机变量,我们将条件独立性检验转化为分类问题并实现了非参数化的方案,通过最近邻引导采样策略生成训练样本,并提出一种大型数据集上性能更好的算法,从而实现有效测试。
Sep, 2017
本研究探讨在差分隐私的约束下的条件独立性检验,设计了两种基于广义协方差度量的私有 CI 检验以及基于 Candës 等人的条件随机化检验(在模型 - X 假设下),这是第一种适用于 $ Z $ 为连续型变量的私有 CI 检验。
Jun, 2023
探究在高维情况下对分类器的精度验证,证明一种基于排列组合的测试方法具有连续性及德克斯特拉极限分布的高斯近似测试也具有连续性,并以高斯分布为例进一步研究了线性判别分析和 Hotelling's 测试等方法的功率。
Feb, 2016