一种去偏置的随机森林特征重要性度量方法
本文介绍了一种名为 MDI + 的灵活的特征重要性框架,它使用广义线性模型(GLMs)和更适合给定数据结构的度量衡,并结合了额外的功能来缓解对加性或平滑模型的预测的已知偏差。经过广泛的基于数据的模拟和实际案例研究,并将 MDI + 应用于药物反应预测和乳腺癌亚型分类,结果表明,MDI + 在提取预测基因方面优于现有的特征重要性度量,具有更高的稳定性。
Jul, 2023
通过纠正 Random Forests 和其他基于树的方法中的变量重要性衡量中的偏差,将 split-improvement 在外部样本数据上计算后巧妙地整合,可以得到更好的特征总结和筛选工具。
Mar, 2019
本文提出了针对异构数据特征关系相互影响的两种新型方法:互济森林影响(MFI)和互济不纯性减少(MIR),并通过 p 值测试程序来选择相关和重要特征,在模拟数据集等应用中表现良好。
Apr, 2023
分布随机森林是一种灵活的基于森林的方法,用于估计给定输入变量的一个多变量输出的全条件分布。本文介绍了一种用于分布随机森林的变量重要性算法,基于已建立的删除与重学习原则和最大均值差异距离。我们展示了该引入的重要性指标是一致的,在真实数据和模拟数据上表现出高的经验性能,并胜过竞争对手。特别地,我们的算法通过递归特征消除高效地选择变量,从而能够提供用于建立条件输出分布的准确估计的小的变量集。
Oct, 2023
本文提出了一种可以用于任意机器学习方法 (包括核机器和深度学习) 的 feature importance(特征重要性)的度量方法,可以用于不同层面的算法解释,因此可以提供更好的机器学习预测结果。
Nov, 2016
我们提出了一种公平特征重要性评分,用于解释决策树等可解释的黑盒机器学习模型对公平性或偏见的贡献。通过模拟和真实示例,我们证明了该方法对树形集成和其他机器学习系统的树形替代物提供了有效的解释性。
Oct, 2023
本文提出了一种基于扰动的预测忠实度度量方法,称为 PGI 平方,在决策树回归模型中可以准确高效地计算任意独立特征扰动分布的度量。同时,根据 PGI 平方,我们提出了一种根据特征重要性对树模型预测进行排名的方法,实验结果表明,在某些方面,该方法可能会更好地识别全局重要特征,超越了现有的 SHAP 解释器。
Apr, 2024
本文研究了 Gradient Boosting Decision Tree 模型中的 split finding algorithm 偏差问题,提出了新的无偏 gain 量度方法并在 UnbiasedGBM 模型中应用,实验结果表明 UnbiasedGBM 在 60 个数据集上表现更好,无偏 gain 在特征选择上也较其他方法表现更好。
May, 2023