一种去偏置的随机森林特征重要性度量方法

Jun, 2019

一种去偏置的随机森林特征重要性度量方法

A Debiased MDI Feature Importance Measure for Random Forests

Xiao Li, Yu Wang, Sumanta Basu, Karl Kumbier, Bin Yu

TL;DR该论文从理论和方法论两方面，通过提出一种基于无袋预测样本的去偏 MDI 重要性度量方法，即 MDI-oob，来解决 MDI（Mean Decrease Impurity）特征选择方法中的偏差问题，并在其基础上表现出 RF（Random Forests）特征选择方面的最佳性能。

Abstract

tree ensembles such as random forests have achieved impressive empirical success across a wide variety of applications. To understand how these models make predictions, people routinely turn to →

tree ensembles random forests feature importance mean decrease impurity debiased mdi

发现论文，激发创造

MDI+: 一种基于随机森林的灵活特征重要性框架

本文介绍了一种名为 MDI + 的灵活的特征重要性框架，它使用广义线性模型（GLMs）和更适合给定数据结构的度量衡，并结合了额外的功能来缓解对加性或平滑模型的预测的已知偏差。经过广泛的基于数据的模拟和实际案例研究，并将 MDI + 应用于药物反应预测和乳腺癌亚型分类，结果表明，MDI + 在提取预测基因方面优于现有的特征重要性度量，具有更高的稳定性。

Jul, 2023

通过特征贡献和 MDI 特征重要性解释 Deep Forest

通过计算和校准来为深层森林设计特征贡献和 MDI 特征重要性的计算工具，验证其在模拟数据和实际数据上的有效性。

May, 2023

树形方法中特征重要性的无偏测量

通过纠正 Random Forests 和其他基于树的方法中的变量重要性衡量中的偏差，将 split-improvement 在外部样本数据上计算后巧妙地整合，可以得到更好的特征总结和筛选工具。

Mar, 2019

通过特征的相互影响分析打开随机森林的黑匣子

本文提出了针对异构数据特征关系相互影响的两种新型方法：互济森林影响（MFI）和互济不纯性减少（MIR），并通过 p 值测试程序来选择相关和重要特征，在模拟数据集等应用中表现良好。

Apr, 2023

基于 MMD 的分布式随机森林变量重要性

分布随机森林是一种灵活的基于森林的方法，用于估计给定输入变量的一个多变量输出的全条件分布。本文介绍了一种用于分布随机森林的变量重要性算法，基于已建立的删除与重学习原则和最大均值差异距离。我们展示了该引入的重要性指标是一致的，在真实数据和模拟数据上表现出高的经验性能，并胜过竞争对手。特别地，我们的算法通过递归特征消除高效地选择变量，从而能够提供用于建立条件输出分布的准确估计的小的变量集。

Oct, 2023

一种简单有效的基于模型的变量重要性度量方法

本文提出了一种标准化的、基于模型的方法来测量监督学习算法中预测器的重要性，该方法适用于各种现代算法，如随机森林、梯度提升决策树等。

May, 2018

非线性学习算法特征重要性度量

本文提出了一种可以用于任意机器学习方法 (包括核机器和深度学习) 的 feature importance（特征重要性）的度量方法，可以用于不同层面的算法解释，因此可以提供更好的机器学习预测结果。

Nov, 2016

基于树模型和替代模型的公平特征重要性评分

我们提出了一种公平特征重要性评分，用于解释决策树等可解释的黑盒机器学习模型对公平性或偏见的贡献。通过模拟和真实示例，我们证明了该方法对树形集成和其他机器学习系统的树形替代物提供了有效的解释性。

Oct, 2023

树模型特征重要性准确评估

本文提出了一种基于扰动的预测忠实度度量方法，称为 PGI 平方，在决策树回归模型中可以准确高效地计算任意独立特征扰动分布的度量。同时，根据 PGI 平方，我们提出了一种根据特征重要性对树模型预测进行排名的方法，实验结果表明，在某些方面，该方法可能会更好地识别全局重要特征，超越了现有的 SHAP 解释器。

Apr, 2024

基于无偏特征重要性的无偏梯度提升决策树

本文研究了 Gradient Boosting Decision Tree 模型中的 split finding algorithm 偏差问题，提出了新的无偏 gain 量度方法并在 UnbiasedGBM 模型中应用，实验结果表明 UnbiasedGBM 在 60 个数据集上表现更好，无偏 gain 在特征选择上也较其他方法表现更好。

May, 2023