使用 SAT 解释随机森林
该研究提出了一种计算 DT 的极小解释集 PI-explanations 的新模型,该模型可在多项式时间内计算一个 PI-explanation,并将枚举 PI-explanations 减少到枚举最小击中集的数量。实验结果表明,在大多数情况下,DT 的路径是 PI-explanations 的子集。
Oct, 2020
通过运用博弈论、局部特征交互作用效应和全局模型结构,我们实现了对基于树的机器学习模型的高可解释性,应用于三个医疗机器学习问题,在透露模型全局结构的同时保持其基本特征,识别出美国人口中高强度但低频率的非线性死亡风险因素,突显具有共同危险特征的明显人口亚组,识别出慢性肾脏疾病危险因素之间的非线性交互作用效应,并监测在医院部署的机器学习模型(Identifying factors leading to model's performance decay over time)
May, 2019
本文从机器学习、解释、特征成员问题、分类器和多项式时间五个关键词出发,提出了一种能够较为高效地解决多项式时间分类器中特征成员问题的方法,并通过实验结果验证了其可行性。
Feb, 2022
通过利用随机森林模型中的特征空间中的点之间的相似性,我们提出了一种新的方法来解释随机森林的样本外表现,这使得随机森林的预测可以准确地重写为训练数据点目标标签的加权平均值,并为模型预测生成任何观测的归因,从而补充了 SHAP 等现有的针对模型预测在特征空间维度上生成的归因的方法。我们在美国公司债券交易的债券定价模型的背景下演示了这种方法,并将其与各种现有的模型可解释性方法进行了比较。
Oct, 2023
通过计算训练示例的标签和由森林叶子确定的一组权重之间的数量积可以得到一个随机森林预测;因此,每个预测可以由这些权重非零的训练示例集来解释。研究发现,这种解释所涉及的示例数量与训练集的维度和随机森林算法的超参数有关,这意味着可以通过变化这些参数在一定程度上控制每个预测所涉及的示例数量。然而,对于导致所需预测性能的设置而言,每个预测所涉及的示例数量可能过大,使用户无法掌握解释。为了提供更有用的解释,提出了一种修改后的预测过程,只包括具有最高权重的示例。对回归和分类任务的研究表明,与标准预测过程相比,可以显著减少每个解释中使用的示例数量,同时仍然保持或提高预测性能。
Nov, 2023
本文研究了如何将一个名为 LionForests 的技术应用在多标签分类问题上,通过采用三种不同的策略来解决难以解释的问题,同时提供了定性和定量实验来评估效果。
Jul, 2022