条件独立性检验是机器学习中的常见任务,本文研究了混合类型数据集下基于 k 最近邻的 CMI 估计器,并提出了一种新的方法,该方法不将类别变量视为数值变量,数值实验结果显示我们的变体能更稳定地检测不同数据分布和预处理类型下的依赖关系。
Oct, 2023
针对连续随机变量,我们将条件独立性检验转化为分类问题并实现了非参数化的方案,通过最近邻引导采样策略生成训练样本,并提出一种大型数据集上性能更好的算法,从而实现有效测试。
Sep, 2017
本文提出了一种无需假设 X 给定 Z 的精确分布的条件随机化检验的新方法,并利用计算高效的 1 最近邻来近似编码空假设的条件分布。经实验证明,该方法不仅计算速度快,而且对于合成和实际数据分析都非常有效。
Apr, 2023
提出一种新的 O (N^2) 条件相关独立性检验方法 (CC I),比使用核复现希尔伯特空间 (KCI) 方法计算要快得多,对高维度数据集适用,并且在处理复杂的非线性、非高斯数据集时,比 Harris&Drton(2012)方法以及偏相关度量 (线性高斯检验) 更准确。
Jan, 2014
提出了一种基于核的条件独立性检验方法(KCI-test),可以有效地在维数较高、条件集较大、样本容量较小的情况下进行条件独立性检验,并且实验证明该方法胜过其他方法。
Feb, 2012
提出了一种称为 MINT 的新方法,该方法基于互信息的估计,并使用从最近的邻居距离导出的有效熵估计器,从而便于将互信息分解为联合和边际熵,用于检验两个多变量随机向量的独立性,并可将其扩展为基于测量协变量向量与误差向量独立性的新正态线性模型是否适配的卡方检验,并在模拟和真实数据上进行了数值研究。
Nov, 2017
本研究探讨在差分隐私的约束下的条件独立性检验,设计了两种基于广义协方差度量的私有 CI 检验以及基于 Candës 等人的条件随机化检验(在模型 - X 假设下),这是第一种适用于 $ Z $ 为连续型变量的私有 CI 检验。
Jun, 2023
描述了一种数据高效、基于核的条件独立性统计检验方法,通过数据拆分、辅助数据和更简单的函数类别等方法,控制偏差并校正测试水平,适用于合成和真实数据。
Feb, 2024
本文研究了如何在关系系统中估计数据之间的独立性,提出了一种基于核均值嵌入的方法,用于定义条件和边缘独立性测试,并在结构假设下实现了可伸缩的核测试方法。实证研究表明,该方法在合成网络和半合成网络等数据集上比基于核的独立性测试的现有方法更为有效。
Jun, 2022
基于我们的估计器建立的多元分布的熵的非参数 Von Mises 估计器,在条件独立性测试这一关键步骤上受到启发,我们设计了一种基于估计器的条件独立性测试(VM-CI),在光滑性假设下达到了最优的参数速率。利用指数集中不等式,我们证明了 VM-CI 的总体误差的紧密上限。反过来,这使我们能够表征使用 VM-CI 进行条件独立性测试的任何基于约束的因果发现算法的样本复杂度。据我们所知,这是连续变量因果发现的首个样本复杂度保证。此外,我们经验证明,无论是时间复杂度还是样本复杂度(或两者兼有),VM-CI 在性能上优于其他常见的条件独立性测试,这也反映在结构学习中表现出更好的性能。