一种简单有效的基于模型的变量重要性度量方法

May, 2018

一种简单有效的基于模型的变量重要性度量方法

A Simple and Effective Model-Based Variable Importance Measure

Brandon M. Greenwell, Bradley C. Boehmke, Andrew J. McCarthy

TL;DR本文提出了一种标准化的、基于模型的方法来测量监督学习算法中预测器的重要性，该方法适用于各种现代算法，如随机森林、梯度提升决策树等。

Abstract

In the era of "big data", it is becoming more of a challenge to not only build state-of-the-art predictive models, but also gain an understanding of what's really going on in the data. For example, it is often of

big data predictive models random forests gradient boosted decision trees supervised learning

发现论文，激发创造

通用框架：关于对算法无关变量重要性的推断

本文提出了关于变量重要性的非参数推断的一般框架，定义了变量重要性作为所有可用特征与除考虑特征外的所有特征之间的神谕可预测性的总体对比，并提出了有效的估计程序和策略。

Apr, 2020

随机森林中的相关性和变量重要性

本篇论文针对高维回归或分类框架中预测变量高度相关的情况下的变量选择问题，研究使用随机森林算法的变量选择。论文提供了一种理论研究和模拟实验的方式，证明了使用递归特征排除算法作为排名标准对变量进行选择的高效性，并进行了陆地卫星数据集的测试。

Oct, 2013

无法实现数据的变量重要性

使用合作谢普利方法（Cohort Shapley）来验证黑盒预测算法的重要变量，并通过经济博弈理论来量化变量的重要性。该方法可以用于算法公平性问题，以确定受保护变量的重要性，并通过贝叶斯自助法估计 Shapley 值的不确定性。

May, 2022

非参数特征影响与重要性

该论文提出了特征重要性和特征影响的数学定义，并通过局部依赖曲线直接在数据上对其进行评估，证明其在预测任务中与现有特征选择技术具有竞争力。

Jun, 2020

相关性下的变量重要性排序挑战

变量重要性在可解释机器学习中起着关键作用，它有助于衡量因素对预测模型输出的影响。我们的研究重点是评估和评估旨在解决变量重要性评估中特征相关性问题的方法，如条件预测影响（CPI）等，我们首先进行综合模拟研究，调查特征相关性对变量重要性评估的影响，然后通过 knockoff 构造从理论上证明高相关特征对 CPI 的限制。我们的发现强调了处理高特征相关性时的困难和方法在变量重要性评估中的实用性和局限性的必要性。

Feb, 2024

树形方法中特征重要性的无偏测量

通过纠正 Random Forests 和其他基于树的方法中的变量重要性衡量中的偏差，将 split-improvement 在外部样本数据上计算后巧妙地整合，可以得到更好的特征总结和筛选工具。

Mar, 2019

变量重要性云图：探索一组好模型的变量重要性的方法

本文介绍了一个名为变量重要性云的概念，它将每个变量映射到所有良好预测模型中的重要性，并提出了变量重要性图表作为可视化工具，通过在犯罪司法、营销数据和图像分类任务中的实验证明了变量在近似等精度预测模型中的重要性可以发生很大变化。

Jan, 2019

大型神经网络中变量重要性的懒估计

本研究提出了一种快速且灵活的方法，用于近似估算模型中某一输入变量对于做出特定预测的重要性，并证明了该方法的并发性。通过模拟和气候预测实例，证明了该方法的准确性和实用性。

Jul, 2022

使用加性重要性度量了解全局特征贡献

本研究探索了通过特征的预测能力定义特征重要性的视角，提出了两种预测能力的概念（模型基础和通用），并通过添加重要性度量的框架来规范化该方法。我们提出了一个模型不可知的方法 SAGE，量化预测能力同时考虑特征交互，并发现它比其他方法分配更准确的重要性值。

Apr, 2020

拉肖蒙重要度分布：摆脱不稳定、基于单一模型的变量重要度

量化变量的重要性对于回答遗传学、公共政策和医学等领域的重要问题至关重要。我们提出了一个新的变量重要性框架，可以跨越所有好模型的集合，稳定地衡量变量的重要性，并在数据分布上准确估计变量的真实重要性。

Sep, 2023