使用基于核的条件依赖度量对马可夫毯子进行排名

NIPSFeb, 2014

使用基于核的条件依赖度量对马可夫毯子进行排名

Markov Blanket Ranking using Kernel-based Conditional Dependence Measures

Eric V. Strobl, Shyam Visweswaran

TL;DR为了解决科学研究中纯关联分析的局限性而发展的特征选择算法，提出了一种基于核的条件相关度量的向后淘汰方法，并且在合成与实际数据集上比起其他方法表现更为优秀。

Abstract

Developing feature selection algorithms that move beyond a pure correlational to a more causal analysis of observational data is an import

feature selection causal analysis observational data markov blanket backward elimination

发现论文，激发创造

通过条件协方差最小化进行核特征选择

提出一种基于核独立性度量的特征选择方法，通过约束优化问题中的条件协方差算子的痕迹，选择预测响应的最大子集，证明了该方法的一些一致性结果，并证明了我们的方法在各种合成和实际数据集上具有与其他最先进的算法相比的优势。

Jul, 2017

基于 Copula 的核依赖度量

本文提出了一种基于 copula 的新型随机变量依赖度测量方法，延伸了 MMH 方法至联合分布的 copula，该方法类似于 Shannon 互信息，能够不受边缘变量任何严格增加变换的影响，重要的是在很多应用中，例如特征选择。本文通过一系列实验说明了理论贡献的作用在于特征选择和低维分布嵌入中。同时，该方法的估计是始终如一的，对离群值具有鲁棒性，并仅使用排名统计数据。该方法提出了收敛速率和独立性检验的上界。

Jun, 2012

条件独立性的实用核检验

描述了一种数据高效、基于核的条件独立性统计检验方法，通过数据拆分、辅助数据和更简单的函数类别等方法，控制偏差并校正测试水平，适用于合成和真实数据。

Feb, 2024

基于核的条件独立性检验及其在因果发现中的应用

提出了一种基于核的条件独立性检验方法（KCI-test），可以有效地在维数较高、条件集较大、样本容量较小的情况下进行条件独立性检验，并且实验证明该方法胜过其他方法。

Feb, 2012

基于贝叶斯网络的数据分析：一种自助法的方法

本文旨在提出解决复杂数据分析问题中的信心度测量的方法，包括判断两个节点之间的边缘是否成立、一个给定节点的马尔可夫毯子是否鲁棒以及变量排序等方面，并通过 Efron 的 Bootstrap 方法来实现对这些问题的计算高效求解。此外，作者提出使用这些信心度测量来从数据中产生更好的结构，以及检测潜在变量的存在。

Jan, 2013

相关性下的变量重要性排序挑战

变量重要性在可解释机器学习中起着关键作用，它有助于衡量因素对预测模型输出的影响。我们的研究重点是评估和评估旨在解决变量重要性评估中特征相关性问题的方法，如条件预测影响（CPI）等，我们首先进行综合模拟研究，调查特征相关性对变量重要性评估的影响，然后通过 knockoff 构造从理论上证明高相关特征对 CPI 的限制。我们的发现强调了处理高特征相关性时的困难和方法在变量重要性评估中的实用性和局限性的必要性。

Feb, 2024

前向后向选择和早期淘汰

本文提出了一种启发式方法，通过临时舍弃条件独立于特征集所选择的变量，在保持预测准确性的同时显著提高了前向 - 后向选择算法的运行效率，并在能够被贝叶斯网络或最大祖先图恰当表示的分布中，能够正确识别马尔科夫毯子。

May, 2017

运用算法马尔可夫条件进行因果推断

本文介绍了一种基于单个观测数据进行因果推断的方法，使用条件算法互信息代替因果马尔科夫条件中的条件随机独立性，解释了单个对象之间相似性的因果图生成，并使用可判定复杂度标准替代 Kolmogorov 复杂度，提出了一种新的因果推断原则，从而可以在 Markov 等价因果图之间进行选择。

Apr, 2008

kNN 算法在条件均值和方差估计中的自动不确定性量化和变量选择

本研究介绍了一种基于 kNN 的回归方法，它结合了传统非参数 kNN 模型的可扩展性和适应性以及新颖的变量选择技术，主要关注准确估计随机响应变量的条件均值和方差，从而有效地刻画不同场景下的条件分布特征。我们的方法结合了条件均值和方差的先验估计工作，引入了一个稳健的不确定性量化机制。采用 kNN 确保了预测区间的可扩展计算效率和统计准确性，与最优非参数率一致。此外，我们还介绍了一种新的 kNN 半参数算法，用于估计考虑协变量的 ROC 曲线。为了选择平滑参数 k，我们提出了一个具有理论保证的算法。变量选择的引入在各种建模任务中明显提高了该方法的性能，相对于传统的 kNN 技术。通过在低维、中维和高维协变量空间中进行模拟验证了该方法的有效性。该算法在两个案例研究中展示了特别显著的生物医学应用。最后，通过理论分析，我们强调了我们的方法相对于传统 kNN 模型的一致性和收敛速率，特别是当基础回归模型取值在低维空间时。

Feb, 2024

交叉密度核函数：一种衡量随机过程统计依赖性的新框架

本文提出了一种基于函数方法的新型多元统计相关性定义，通过一种递归双向统计映射来定义新的对称和自主叉密度核，估计它们的统计相关性，因此该核特征谱被提出作为一种新的多元统计相关性测量，其制定要求对于数据生成模型的假设比当前方法更少。

Dec, 2022