利用随机森林相似度距离阐明特征贡献
通过利用随机森林模型中的特征空间中的点之间的相似性,我们提出了一种新的方法来解释随机森林的样本外表现,这使得随机森林的预测可以准确地重写为训练数据点目标标签的加权平均值,并为模型预测生成任何观测的归因,从而补充了 SHAP 等现有的针对模型预测在特征空间维度上生成的归因的方法。我们在美国公司债券交易的债券定价模型的背景下演示了这种方法,并将其与各种现有的模型可解释性方法进行了比较。
Oct, 2023
本研究提出了一种计算随机森林分类模型的特征贡献的方法,可以确定每个变量对单个实例的模型预测的影响,并通过分析训练数据集的特征贡献来确定最显着的变量和它们对个别类别预测的贡献模式,并阐述其在 UCI 基准数据集上的应用。
Dec, 2013
本文提出一种简单且有效的方法,将寻找分类或回归森林的反事实解释所需的最优化问题限制在由实际数据点填充的森林定义的输入空间区域,并使用某个数据集上的某个距离的最近邻搜索来解决问题。这种解决方式有两个优点:能够快速找到解决方案,并且更有可能是现实的,因为它是引导向输入空间的高密度区域的。
Mar, 2023
本论文提出了一个基于三元组比较的新型随机森林算法,用于度量空间中的数据回归和分类,不需要数据点的距离或具体表示方法,并证明其与其他直接访问数据表示的方法相当竞争力强。
Jun, 2018
本文介绍了基于 Gram-Schmidt 去相关方法的特征重要性新概念,并提出了用于使用随机森林回归确定数据趋势的绝对和相对横向速率两种估计器。然后,在各种合成和实际数据集上,将我们的估计器的性质与那些知名估计器进行了实证比较。
Mar, 2023
本文对随机森林进行了深入分析,重点讨论了其学习能力、内部运作和可解释性。本文的贡献在于通过理论分析,证明了随机森林的变量重要性可解释性,从而揭示了随机森林在数据分析和机器学习中的应用潜力。
Jul, 2014
提出了一种名为 Forest Floor 的可视化方法,用于解释 random forest 模型,通过使用特征的贡献值和降维投影的方法,能够准确识别模型的交互作用及局部细节。
May, 2016
通过计算训练示例的标签和由森林叶子确定的一组权重之间的数量积可以得到一个随机森林预测;因此,每个预测可以由这些权重非零的训练示例集来解释。研究发现,这种解释所涉及的示例数量与训练集的维度和随机森林算法的超参数有关,这意味着可以通过变化这些参数在一定程度上控制每个预测所涉及的示例数量。然而,对于导致所需预测性能的设置而言,每个预测所涉及的示例数量可能过大,使用户无法掌握解释。为了提供更有用的解释,提出了一种修改后的预测过程,只包括具有最高权重的示例。对回归和分类任务的研究表明,与标准预测过程相比,可以显著减少每个解释中使用的示例数量,同时仍然保持或提高预测性能。
Nov, 2023
研究发现,对于机器学习算法存在偏见的情况,使用局部信息分解技术可以帮助我们从信息论的角度去 quantify 每一项特征对于已观察到的不平等问题的潜在贡献较好地解释偏见的来源。
Jun, 2022