TREX:基于树集成的描绘点解释
本文提出了一种新的机器学习解释方法,利用局部准确规则提取器(Bellatrex)从随机森林生成的决策树中预选少量多样化规则,在降低维度、聚类等过程中通过解释少数规则从而解释整个森林预测结果,经 89 组真实数据测试,证实在二分类、回归、多标签分类和预测事件任务中,Bellatrex 方法可以有效、准确地代替随机森林,并在性能上表现优异。
Mar, 2022
我们提出了一种称为广义代表器的基于样本的机器学习模型解释的通用类,其测量训练样本对模型测试预测的影响,使用两个组件:度量训练点对模型的重要性并对测试样本不变的全局样本重要性,以及使用核函数来衡量训练样本和测试点的相似性的本地样本重要性。本文的一个重要贡献是展示广义代表器是唯一满足一组自然公理属性的基于样本的解释类。我们讨论了在给定核函数的情况下提取全局重要性的方法,以及在现代非线性模型中的自然核函数选择。正如我们展示的,许多流行的现有样本解释可以被视为使用特定核函数和提取全局重要性方法的广义代表器。此外,我们对两个图像分类数据集和两个文本分类数据集上的不同广义代表器进行了实证比较。
Oct, 2023
提出了通过表现每个类别的代表点 - 原型来解释树模型集合分类器的方法,并通过应用新的距离和自适应原型选择方法,在随机森林和梯度提升树上演示了原型的可行性,其在人类用户的研究中表现良好,并为决策树模型的解释提供了可行的替代方案。
Nov, 2016
本研究提出了一种名为高维表现者的新型基于样本的解释方法,可用于解释正则化高维模型的预测结果;同时也进一步研究了低秩模型在协作过滤中的应用,并对三个二分类数据集和两个推荐系统数据集的实证表现进行了研究。
May, 2023
通过运用博弈论、局部特征交互作用效应和全局模型结构,我们实现了对基于树的机器学习模型的高可解释性,应用于三个医疗机器学习问题,在透露模型全局结构的同时保持其基本特征,识别出美国人口中高强度但低频率的非线性死亡风险因素,突显具有共同危险特征的明显人口亚组,识别出慢性肾脏疾病危险因素之间的非线性交互作用效应,并监测在医院部署的机器学习模型(Identifying factors leading to model's performance decay over time)
May, 2019
该研究提出了一种使用 representer points 解释深度神经网络预测的方法,通过训练集中的线性组合得出预测结果并理解网络的学习参数,这种方法的扩展性更高,具有更多的见解。
Nov, 2018
ProtoTEx 是一种基于原型网络的新型白盒 NLP 分类体系结构,其通过原型张量解释模型决策,可在处理没有代表性特征的类别时有效地处理,可精准检测网络新闻中的宣传,并通过原型解释帮助非专业人士更好地识别宣传。
Apr, 2022
本文旨在通过一种高效的 Oracle 和 MARCO 算法改进,提供一个最小的、满足成本函数的解释,以解释机器学习模型的预测,并对这些解释进行了研究和分析,以进一步了解它们的特点。
Mar, 2023
通过计算训练示例的标签和由森林叶子确定的一组权重之间的数量积可以得到一个随机森林预测;因此,每个预测可以由这些权重非零的训练示例集来解释。研究发现,这种解释所涉及的示例数量与训练集的维度和随机森林算法的超参数有关,这意味着可以通过变化这些参数在一定程度上控制每个预测所涉及的示例数量。然而,对于导致所需预测性能的设置而言,每个预测所涉及的示例数量可能过大,使用户无法掌握解释。为了提供更有用的解释,提出了一种修改后的预测过程,只包括具有最高权重的示例。对回归和分类任务的研究表明,与标准预测过程相比,可以显著减少每个解释中使用的示例数量,同时仍然保持或提高预测性能。
Nov, 2023