- 相关性下的变量重要性排序挑战
变量重要性在可解释机器学习中起着关键作用,它有助于衡量因素对预测模型输出的影响。我们的研究重点是评估和评估旨在解决变量重要性评估中特征相关性问题的方法,如条件预测影响(CPI)等,我们首先进行综合模拟研究,调查特征相关性对变量重要性评估的影 - 高维情况下的变量重要性需要分组
解释机器学习算法的决策过程对模型性能提升和人类理解至关重要,通过评估单个变量的重要性来实现,甚至对于高容量的非线性方法,如深度神经网络(DNNs)。在高维设置中,引入了 BCPI(基于块的条件排列重要性)作为一种新的通用框架来计算变量的重要 - 基于随机森林变量重要性的类别不平衡问题选择算法
在这篇论文中,研究了类平衡对随机森林变量重要性的影响,并提出了一种利用随机森林变量重要性和置信区间的变量选择算法,在实验研究中表明该算法可以有效地选择最优特征集,改善类不平衡问题的预测性能。
- 基于 MMD 的分布式随机森林变量重要性
分布随机森林是一种灵活的基于森林的方法,用于估计给定输入变量的一个多变量输出的全条件分布。本文介绍了一种用于分布随机森林的变量重要性算法,基于已建立的删除与重学习原则和最大均值差异距离。我们展示了该引入的重要性指标是一致的,在真实数据和模拟 - 拉肖蒙重要度分布:摆脱不稳定、基于单一模型的变量重要度
量化变量的重要性对于回答遗传学、公共政策和医学等领域的重要问题至关重要。我们提出了一个新的变量重要性框架,可以跨越所有好模型的集合,稳定地衡量变量的重要性,并在数据分布上准确估计变量的真实重要性。
- DiscoVars:一种新的数据分析视角 —— 应用于聚类变量选择
提出了一种基于依赖网络和图中心性度量实现变量重要性评估的新数据分析方法,该方法无需考虑底层学习任务类型,通过选择排名前 n 位的图中心性量度高的变量来构建备选变量集合,可为进一步的学习任务提供强有力的变量子集。同时,利用 Shiny app - 通过特征的相互影响分析打开随机森林的黑匣子
本文提出了针对异构数据特征关系相互影响的两种新型方法:互济森林影响(MFI)和互济不纯性减少(MIR),并通过 p 值测试程序来选择相关和重要特征,在模拟数据集等应用中表现良好。
- 理解和探索一整套好的稀疏广义可加模型
本文提出一种方法,以高效准确地近似表示稀疏广义加性模型中的 Rashomon set, 并使用这个集合作为解决实际挑战的基础,例如查找符合用户指定限制的模型,研究变量重要性,调查形状函数的突变等。
- 高维数据的无模型 Shapley 值
本文提出了一个称为集体 Shapley(CS)方法,具有指数成本,以及需要第二个黑匣子模型作为输入的受监督的流形 Shapley 方法。并且引入了一种名为 IGCS 的集成梯度版本的 cohort Shapley,通过某些曲线下面积度量证明 - 探究稀疏决策树的整个拉绍门集
首次提供了一种完整枚举稀疏决策树中 Rashomon set 的技术,并通过特定的数据结构提供高效的查询和抽样,该技术可以使用户在精度相近的所有模型中实现无前提选择,并展示了三个应用,包括研究变量的重要性、平衡精度和 F1 得分的 Rash - ICML大型神经网络中变量重要性的懒估计
本研究提出了一种快速且灵活的方法,用于近似估算模型中某一输入变量对于做出特定预测的重要性,并证明了该方法的并发性。通过模拟和气候预测实例,证明了该方法的准确性和实用性。
- 空间机器学习模型诊断:一种不依赖于模型的基于距离的方法
该研究提出了空间预测误差剖面(SPEPs)和空间变量重要性剖面(SVIPs)作为空间预测模型的新型模型无关的评估和解释工具,以预测距离为重点。这些诊断工具为空间数据科学提供了新的工具,可能会改善机器学习模型的解释、选择和设计。
- ICML使用 Shapley 值进行人口特征重要性的高效非参数统计推断
本文提出了一种基于 Shapley 种群变量重要性度量 (SPVIM) 的变量重要性估计器,通过仅对指定数量的特征子集进行随机采样来减少计算复杂度,并证明了其在渐进意义下收敛的最佳速率,可以建立有效的置信区间和假设检验。在模拟实验和真实数据 - 通用框架:关于对算法无关变量重要性的推断
本文提出了关于变量重要性的非参数推断的一般框架,定义了变量重要性作为所有可用特征与除考虑特征外的所有特征之间的神谕可预测性的总体对比,并提出了有效的估计程序和策略。
- Shapley 协同精炼解释黑盒决策
我们提出了一种变量重要性度量,基于博弈论中的 Shapley 值,用于量化黑盒函数中各个输入变量的影响。我们的度量基于观察数据分组来计算,连接了可解释 AI 领域的变量重要性度量和全局敏感性分析的函数分解方法,并引入了一个平方 Shaple - 变量重要性云图:探索一组好模型的变量重要性的方法
本文介绍了一个名为变量重要性云的概念,它将每个变量映射到所有良好预测模型中的重要性,并提出了变量重要性图表作为可视化工具,通过在犯罪司法、营销数据和图像分类任务中的实验证明了变量在近似等精度预测模型中的重要性可以发生很大变化。
- 多变量 LSTM 神经网络自回归外生模型
本文提出了一种多变量 LSTM 模型,能够准确预测带有外生变量的时间序列,并且解释各个变量的重要性。采用张量化隐藏状态设计的多变量 LSTM 学习每个变量的隐藏状态,从而实现混合时间和变量注意力机制,并且量化了各个变量的重要性。基于真实数据 - 所有的模型都是错误的,但很多都是有用的:通过同时研究整个预测模型类来学习变量的重要性
该研究提出模型类依赖(MCR)作为评估预测模型准确性的变量重要性(VI)方法,通过考虑不同参数形式的多个预测模型来提供更全面的重要性描述,并将 MCR 应用于 Broward 县犯罪记录的公共数据集,研究了性别和种族对累犯预测模型的依赖关系 - 随机森林指南
该论文综述了随机森林算法的理论和方法发展,重点讨论了参数选择、重采样机制和变量重要性测量等数学因素驱动该算法,并强调了其在分类、回归和变量重要性测量等方面的应用。
- 从观测数据中估计高维干预效应
本研究提出了一种利用干预演算法来推测协变量对响应参数的因果效应的算法,并运用这个方法去确定变量的重要性。