使用 SAT 解释随机森林

IJCAIMay, 2021

On Explaining Random Forests with SAT

Yacine Izza, Joao Marques-Silva

TL;DR本文证明了求出随机森林的一个 PI 解释是 D^P 完全的，并提出了一种命题编码方法，以使用 SAT 求解器找到 PI 解释。实验结果表明，该 SAT 方法的效果显著优于现有的启发式方法。

Abstract

Random Forest (RFs) are among the most widely used machine learning (ML) classifiers. Even though RFs are not interpretable, there are no dedicated non-heuristic approaches for computing explanations of RFs. Moreover, there is recent work on polynomial algorithms for explaining ML mode

random forests machine learning explanation d^p-complete sat solver

发现论文，激发创造

解释决策树

该研究提出了一种计算 DT 的极小解释集 PI-explanations 的新模型，该模型可在多项式时间内计算一个 PI-explanation，并将枚举 PI-explanations 减少到枚举最小击中集的数量。实验结果表明，在大多数情况下，DT 的路径是 PI-explanations 的子集。

Oct, 2020

树状可解释人工智能：从局部解释到全局理解

通过运用博弈论、局部特征交互作用效应和全局模型结构，我们实现了对基于树的机器学习模型的高可解释性，应用于三个医疗机器学习问题，在透露模型全局结构的同时保持其基本特征，识别出美国人口中高强度但低频率的非线性死亡风险因素，突显具有共同危险特征的明显人口亚组，识别出慢性肾脏疾病危险因素之间的非线性交互作用效应，并监测在医院部署的机器学习模型（Identifying factors leading to model's performance decay over time）

May, 2019

利用双极论证和马尔可夫网络解释随机森林（技术报告）

利用马尔可夫网络编码提供充分必要的论证解释以代替理解复杂的决策树算法过程

Nov, 2022

关于决定 SDD 及相关分类器解释中特征成员资格的研究

本文从机器学习、解释、特征成员问题、分类器和多项式时间五个关键词出发，提出了一种能够较为高效地解决多项式时间分类器中特征成员问题的方法，并通过实验结果验证了其可行性。

Feb, 2022

关于计算概率性还原解释

探索实用于广泛使用的决策树、朴素贝叶斯分类器和命题语言的几个家族更好地计算超过给定阈值的目标类的相关集，证实了这些类别的相对简洁的相关特征集可以很容易地获得。

Dec, 2022

提升随机森林的本地可解释性：一种基于邻近性的方法

通过利用随机森林模型中的特征空间中的点之间的相似性，我们提出了一种新的方法来解释随机森林的样本外表现，这使得随机森林的预测可以准确地重写为训练数据点目标标签的加权平均值，并为模型预测生成任何观测的归因，从而补充了 SHAP 等现有的针对模型预测在特征空间维度上生成的归因的方法。我们在美国公司债券交易的债券定价模型的背景下演示了这种方法，并将其与各种现有的模型可解释性方法进行了比较。

Oct, 2023

树集成分类器的概念视角

本文提出了一种基于格论的代数方法来解释树集成分类器中随机森林的分类性能，并展示了该方法在提供全局解释方面的能力。

Feb, 2023

计算决策树概率解释

论文解决了决策树上计算 δ 足够原因的计算复杂度，发现在包含方式和大小方面都不具有多项式时间算法，但在确定性情况下具有易于计算的特点。

Jun, 2022

基于示例的随机森林预测解释

通过计算训练示例的标签和由森林叶子确定的一组权重之间的数量积可以得到一个随机森林预测；因此，每个预测可以由这些权重非零的训练示例集来解释。研究发现，这种解释所涉及的示例数量与训练集的维度和随机森林算法的超参数有关，这意味着可以通过变化这些参数在一定程度上控制每个预测所涉及的示例数量。然而，对于导致所需预测性能的设置而言，每个预测所涉及的示例数量可能过大，使用户无法掌握解释。为了提供更有用的解释，提出了一种修改后的预测过程，只包括具有最高权重的示例。对回归和分类任务的研究表明，与标准预测过程相比，可以显著减少每个解释中使用的示例数量，同时仍然保持或提高预测性能。

Nov, 2023

随机森林的本地多标签解释

本文研究了如何将一个名为 LionForests 的技术应用在多标签分类问题上，通过采用三种不同的策略来解决难以解释的问题，同时提供了定性和定量实验来评估效果。

Jul, 2022