利用随机森林相似度距离阐明特征贡献

IJCAIJul, 2018

利用随机森林相似度距离阐明特征贡献

Explicating feature contribution using Random Forest proximity distances

Leanne S. Whitmore, Anthe George, Corey M. Hudson

TL;DR通过观察输入的变化如何映射到决策空间中的实例的移动，随着输入的改变将特定的实例靠近内部组或外部组，可以揭示每个要素的独立贡献，从而计算特征对于决策过程的贡献，这使得黑盒决策的解释成为可能。

Abstract

In random forests, proximity distances are a metric representation of data into decision space. By observing how changes in input map to the movement of instances in this space we are able to determine the

random forests proximity distances independent contribution black-box decisions classification errors

发现论文，激发创造

提升随机森林的本地可解释性：一种基于邻近性的方法

通过利用随机森林模型中的特征空间中的点之间的相似性，我们提出了一种新的方法来解释随机森林的样本外表现，这使得随机森林的预测可以准确地重写为训练数据点目标标签的加权平均值，并为模型预测生成任何观测的归因，从而补充了 SHAP 等现有的针对模型预测在特征空间维度上生成的归因的方法。我们在美国公司债券交易的债券定价模型的背景下演示了这种方法，并将其与各种现有的模型可解释性方法进行了比较。

Oct, 2023

利用特征贡献方法解释随机森林分类模型

本研究提出了一种计算随机森林分类模型的特征贡献的方法，可以确定每个变量对单个实例的模型预测的影响，并通过分析训练数据集的特征贡献来确定最显着的变量和它们对个别类别预测的贡献模式，并阐述其在 UCI 基准数据集上的应用。

Dec, 2013

决策森林的快速近似反事实解释

本文提出一种简单且有效的方法，将寻找分类或回归森林的反事实解释所需的最优化问题限制在由实际数据点填充的森林定义的输入空间区域，并使用某个数据集上的某个距离的最近邻搜索来解决问题。这种解决方式有两个优点：能够快速找到解决方案，并且更有可能是现实的，因为它是引导向输入空间的高密度区域的。

Mar, 2023

基于比较的随机森林

本论文提出了一个基于三元组比较的新型随机森林算法，用于度量空间中的数据回归和分类，不需要数据点的距离或具体表示方法，并证明其与其他直接访问数据表示的方法相当竞争力强。

Jun, 2018

通过随机森林回归进行特征重要性的去相关和趋势检测的概念

本文介绍了基于 Gram-Schmidt 去相关方法的特征重要性新概念，并提出了用于使用随机森林回归确定数据趋势的绝对和相对横向速率两种估计器。然后，在各种合成和实际数据集上，将我们的估计器的性质与那些知名估计器进行了实证比较。

Mar, 2023

理解随机森林：从理论到实践

本文对随机森林进行了深入分析，重点讨论了其学习能力、内部运作和可解释性。本文的贡献在于通过理论分析，证明了随机森林的变量重要性可解释性，从而揭示了随机森林在数据分析和机器学习中的应用潜力。

Jul, 2014

随机森林的森林地面可视化

提出了一种名为 Forest Floor 的可视化方法，用于解释 random forest 模型，通过使用特征的贡献值和降维投影的方法，能够准确识别模型的交互作用及局部细节。

May, 2016

基于示例的随机森林预测解释

通过计算训练示例的标签和由森林叶子确定的一组权重之间的数量积可以得到一个随机森林预测；因此，每个预测可以由这些权重非零的训练示例集来解释。研究发现，这种解释所涉及的示例数量与训练集的维度和随机森林算法的超参数有关，这意味着可以通过变化这些参数在一定程度上控制每个预测所涉及的示例数量。然而，对于导致所需预测性能的设置而言，每个预测所涉及的示例数量可能过大，使用户无法掌握解释。为了提供更有用的解释，提出了一种修改后的预测过程，只包括具有最高权重的示例。对回归和分类任务的研究表明，与标准预测过程相比，可以显著减少每个解释中使用的示例数量，同时仍然保持或提高预测性能。

Nov, 2023

随机森林模型分析

研究了随机森林模型的统计性质，证明其是一致的，适应于稀疏数据，收敛速度只与有效特征的数量有关。

May, 2010

利用信息理论量化特征对总体差异的贡献

研究发现，对于机器学习算法存在偏见的情况，使用局部信息分解技术可以帮助我们从信息论的角度去 quantify 每一项特征对于已观察到的不平等问题的潜在贡献较好地解释偏见的来源。

Jun, 2022