基于示例的随机森林预测解释

Nov, 2023

Example-Based Explanations of Random Forest Predictions

Henrik Boström

TL;DR通过计算训练示例的标签和由森林叶子确定的一组权重之间的数量积可以得到一个随机森林预测；因此，每个预测可以由这些权重非零的训练示例集来解释。研究发现，这种解释所涉及的示例数量与训练集的维度和随机森林算法的超参数有关，这意味着可以通过变化这些参数在一定程度上控制每个预测所涉及的示例数量。然而，对于导致所需预测性能的设置而言，每个预测所涉及的示例数量可能过大，使用户无法掌握解释。为了提供更有用的解释，提出了一种修改后的预测过程，只包括具有最高权重的示例。对回归和分类任务的研究表明，与标准预测过程相比，可以显著减少每个解释中使用的示例数量，同时仍然保持或提高预测性能。

Abstract

A random forest prediction can be computed by the scalar product of the labels of the training examples and a set of →

random forest prediction training examples weights explanations

发现论文，激发创造

随机森林的本地多标签解释

本文研究了如何将一个名为 LionForests 的技术应用在多标签分类问题上，通过采用三种不同的策略来解决难以解释的问题，同时提供了定性和定量实验来评估效果。

Jul, 2022

提升随机森林的本地可解释性：一种基于邻近性的方法

通过利用随机森林模型中的特征空间中的点之间的相似性，我们提出了一种新的方法来解释随机森林的样本外表现，这使得随机森林的预测可以准确地重写为训练数据点目标标签的加权平均值，并为模型预测生成任何观测的归因，从而补充了 SHAP 等现有的针对模型预测在特征空间维度上生成的归因的方法。我们在美国公司债券交易的债券定价模型的背景下演示了这种方法，并将其与各种现有的模型可解释性方法进行了比较。

Oct, 2023

树集成分类器的概念视角

本文提出了一种基于格论的代数方法来解释树集成分类器中随机森林的分类性能，并展示了该方法在提供全局解释方面的能力。

Feb, 2023

利用机器去学习的方式为随机森林提供基于实例的解释

通过利用机器反学习方法，FairDebugger 能够识别造成随机森林分类器结果不公平的训练数据子集，并生成前 k 个解释（以一致的训练数据子集形式）来解释模型的不公平行为。

Feb, 2024

树状可解释人工智能：从局部解释到全局理解

通过运用博弈论、局部特征交互作用效应和全局模型结构，我们实现了对基于树的机器学习模型的高可解释性，应用于三个医疗机器学习问题，在透露模型全局结构的同时保持其基本特征，识别出美国人口中高强度但低频率的非线性死亡风险因素，突显具有共同危险特征的明显人口亚组，识别出慢性肾脏疾病危险因素之间的非线性交互作用效应，并监测在医院部署的机器学习模型（Identifying factors leading to model's performance decay over time）

May, 2019

基于实例的 AXIL 加权梯度提升机预测解释

研究表明，线性模型和基于树的模型的回归预测可以表示为训练数据中目标实例的线性组合，并且使用的权重是实例重要性的度量，这有助于使机器学习预测更可解释和可解释性。

Jan, 2023

利用特征贡献方法解释随机森林分类模型

本研究提出了一种计算随机森林分类模型的特征贡献的方法，可以确定每个变量对单个实例的模型预测的影响，并通过分析训练数据集的特征贡献来确定最显着的变量和它们对个别类别预测的贡献模式，并阐述其在 UCI 基准数据集上的应用。

Dec, 2013

使用 SAT 解释随机森林

本文证明了求出随机森林的一个 PI 解释是 D^P 完全的，并提出了一种命题编码方法，以使用 SAT 求解器找到 PI 解释。实验结果表明，该 SAT 方法的效果显著优于现有的启发式方法。

May, 2021

如何解释单个分类决策

本文提出一种基于一组假设的程序，能够解释任何分类方法所做出的决策。

Dec, 2009

随机森林指南

该论文综述了随机森林算法的理论和方法发展，重点讨论了参数选择、重采样机制和变量重要性测量等数学因素驱动该算法，并强调了其在分类、回归和变量重要性测量等方面的应用。

Nov, 2015