大型神经网络中变量重要性的懒估计

ICMLJul, 2022

大型神经网络中变量重要性的懒估计

Lazy Estimation of Variable Importance for Large Neural Networks

Yue Gao, Abby Stevens, Rebecca Willet, Garvesh Raskutti

TL;DR本研究提出了一种快速且灵活的方法，用于近似估算模型中某一输入变量对于做出特定预测的重要性，并证明了该方法的并发性。通过模拟和气候预测实例，证明了该方法的准确性和实用性。

Abstract

As opaque predictive models increasingly impact many areas of modern life, interest in quantifying the importance of a given input variable for making a specific prediction has grown. Recently, there has been a proliferation of →

predictive models variable importance model-agnostic methods neural network climate forecasting

发现论文，激发创造

通用框架：关于对算法无关变量重要性的推断

本文提出了关于变量重要性的非参数推断的一般框架，定义了变量重要性作为所有可用特征与除考虑特征外的所有特征之间的神谕可预测性的总体对比，并提出了有效的估计程序和策略。

Apr, 2020

一种简单有效的基于模型的变量重要性度量方法

本文提出了一种标准化的、基于模型的方法来测量监督学习算法中预测器的重要性，该方法适用于各种现代算法，如随机森林、梯度提升决策树等。

May, 2018

相关性下的变量重要性排序挑战

变量重要性在可解释机器学习中起着关键作用，它有助于衡量因素对预测模型输出的影响。我们的研究重点是评估和评估旨在解决变量重要性评估中特征相关性问题的方法，如条件预测影响（CPI）等，我们首先进行综合模拟研究，调查特征相关性对变量重要性评估的影响，然后通过 knockoff 构造从理论上证明高相关特征对 CPI 的限制。我们的发现强调了处理高特征相关性时的困难和方法在变量重要性评估中的实用性和局限性的必要性。

Feb, 2024

所有的模型都是错误的，但很多都是有用的：通过同时研究整个预测模型类来学习变量的重要性

该研究提出模型类依赖（MCR）作为评估预测模型准确性的变量重要性（VI）方法，通过考虑不同参数形式的多个预测模型来提供更全面的重要性描述，并将 MCR 应用于 Broward 县犯罪记录的公共数据集，研究了性别和种族对累犯预测模型的依赖关系。

Jan, 2018

无法实现数据的变量重要性

使用合作谢普利方法（Cohort Shapley）来验证黑盒预测算法的重要变量，并通过经济博弈理论来量化变量的重要性。该方法可以用于算法公平性问题，以确定受保护变量的重要性，并通过贝叶斯自助法估计 Shapley 值的不确定性。

May, 2022

拉肖蒙重要度分布：摆脱不稳定、基于单一模型的变量重要度

量化变量的重要性对于回答遗传学、公共政策和医学等领域的重要问题至关重要。我们提出了一个新的变量重要性框架，可以跨越所有好模型的集合，稳定地衡量变量的重要性，并在数据分布上准确估计变量的真实重要性。

Sep, 2023

深度神经网络可解释性方法评估基准

本文提出了一种衡量深度神经网络特征重要性估计的近似准确性的经验方法，研究发现，在许多流行的可解释性方法中，只有某些集成方法，如 VarGrad 和 SmoothGrad-Squared，才能胜任随机指定特征重要性的任务。

Jun, 2018

变量重要性云图：探索一组好模型的变量重要性的方法

本文介绍了一个名为变量重要性云的概念，它将每个变量映射到所有良好预测模型中的重要性，并提出了变量重要性图表作为可视化工具，通过在犯罪司法、营销数据和图像分类任务中的实验证明了变量在近似等精度预测模型中的重要性可以发生很大变化。

Jan, 2019

高维情况下的变量重要性需要分组

解释机器学习算法的决策过程对模型性能提升和人类理解至关重要，通过评估单个变量的重要性来实现，甚至对于高容量的非线性方法，如深度神经网络（DNNs）。在高维设置中，引入了 BCPI（基于块的条件排列重要性）作为一种新的通用框架来计算变量的重要性，具备统计保证并处理单个和群组情况。此外，通过将 DNN 架构扩展为适用于群组结构的次线性层，我们还引入了一种新的堆叠方法，以处理高基数群组，该方法在高度相关的群组中控制了一类错误，并在基准测试中展现了顶级准确性。此外，我们对大规模医学数据集进行了实际数据分析，旨在展示生物标志物预测方面的研究结果与文献的一致性。

Dec, 2023

深度神经网络训练的有偏重要性采样

本文提出一种有效的计算深度学习模型中 loss value 的方法，它使用小型模型在并行训练时提高了深度学习优化中重要抽样的应用。结果表明，此方法在测试深度卷积和递归神经网络的图像分类和语言建模任务时取得了良好的普适性。

May, 2017