随机森林的本地多标签解释
在机器学习模型中,为了避免社会伦理问题影响人们的生活,必须对决策过程进行透明解释。为此,本文提出了一种名为 LionForests 的随机森林解释技术,其提供规则作为解释,并在二元分类任务到多类别分类和回归任务中均适用,并且通过实验表明了其有效性和其与先前技术的不同之处。
Apr, 2021
通过计算训练示例的标签和由森林叶子确定的一组权重之间的数量积可以得到一个随机森林预测;因此,每个预测可以由这些权重非零的训练示例集来解释。研究发现,这种解释所涉及的示例数量与训练集的维度和随机森林算法的超参数有关,这意味着可以通过变化这些参数在一定程度上控制每个预测所涉及的示例数量。然而,对于导致所需预测性能的设置而言,每个预测所涉及的示例数量可能过大,使用户无法掌握解释。为了提供更有用的解释,提出了一种修改后的预测过程,只包括具有最高权重的示例。对回归和分类任务的研究表明,与标准预测过程相比,可以显著减少每个解释中使用的示例数量,同时仍然保持或提高预测性能。
Nov, 2023
通过利用机器反学习方法,FairDebugger 能够识别造成随机森林分类器结果不公平的训练数据子集,并生成前 k 个解释(以一致的训练数据子集形式)来解释模型的不公平行为。
Feb, 2024
将随机回归树方法改成了一个新的神经网络模型,称为神经随机森林。 基于随机回归树的架构利用了先验知识并具有更少的参数,较少的限制设计决策路径和优秀的表现使得方法可用于多样的预测问题。
Apr, 2016
该研究提出了一个名为 MLDF 的多标签深度森林方法,该方法利用度量感知特征重用和度量感知层增长机制同时解决了多标签问题中的两个难点:模型复杂性约束和性能度量优化。实验证明,与基准数据集上的其他方法相比,我们的提议不仅击败了六个度量标准,而且在多标签学习中具有标签相关性发现和其他期望的属性。
Nov, 2019
通过运用博弈论、局部特征交互作用效应和全局模型结构,我们实现了对基于树的机器学习模型的高可解释性,应用于三个医疗机器学习问题,在透露模型全局结构的同时保持其基本特征,识别出美国人口中高强度但低频率的非线性死亡风险因素,突显具有共同危险特征的明显人口亚组,识别出慢性肾脏疾病危险因素之间的非线性交互作用效应,并监测在医院部署的机器学习模型(Identifying factors leading to model's performance decay over time)
May, 2019