- RankSHAP:一种用于排序任务的金标准特征归因方法
通过引入一种公理化博弈论的方法,本文针对排名任务的特征归因方法提出了 Rank-SHAP 算法,并通过多方案的计算效率和准确性评估以及与人类直观的一项用户研究,对算法进行了验证和分析。
- T-Explainer: 基於梯度的模型无关解释性框架
可解释人工智能(Explainable Artificial Intelligence)通过提供准确、一致且稳定的解释,解决机器学习中黑盒模型的透明度问题,其中基于泰勒展开的 T-Explainer 成为了一种有效的特征归因方法。
- PASA: 使用预测和归因敏感性分析的攻击不可知的无监督对抗检测
深度神经网络在分类方面容易受到对抗性攻击影响,本文提出了一种基于特征归因的方法来检测对抗样本,其能够可靠地检测到对抗样本,并在性能上优于目前最先进的统计无监督对抗检测器。
- 高斯过程的可解释学习
解释性人工智能的研究领域试图开发提供复杂机器学习方法如何进行预测的见解的方法。在这项工作中,我们探讨了高斯过程回归(GPR)背景下的特征归因问题,并在现有文献的基础上以原则性的方法定义了特征归因。我们展示了尽管 GPR 是一种高度灵活的非参 - 探索者头部:大规模模型与数据的广义特征归因
提出了一种有效且可解释的特征归属方法 prospectors heads,能够推广到序列、图像和图谱数据领域,并在特征定位上具有优越性能,提供了一个改善复杂领域机器学习模型信任和透明度的框架。
- 随机分摊:加速特征和数据归因的统一方法
该研究论文通过训练具有噪声标签的模型,通过理论分析和实验研究,证明了这种方法在特征归因和数据估值等任务中能够显著加速,并且通常比现有方法快一个数量级。
- 贪婪猪:自适应积分梯度
基于特征选择的统一离散优化框架引入了自适应性,提出了一种自适应的 Greedy PIG 方法以增强特征归因方法的能力。
- 神经网络的逐实例线性化用于模型解释
神经网络在科学领域取得了显著的成功,但是其模型的可解释性仍然是将这种技术应用于我们日常生活的主要瓶颈之一。本文提出了一种基于实例的线性化方法,来重新定义神经网络预测的前向计算过程,从而提供了一个突出输入特征重要性并准确解释每个输入特征对预测 - 上下文感知型特征归属分析
通过论证的方式,提出了一种上下文感知特征归因的框架 CA-FATA,该框架将每个特征作为一个支持、攻击或中立预测的论证,通过论证过程进行特征归因计算,具有明确的语义和可解释性,并且能够整合用户上下文等额外信息以实现更准确的预测。
- 深度学习中的可解释 AI 技术用于轴承故障检测
使用深度学习和可解释人工智能技术,提出了一种领域特定的特征归因框架,用于检测滚动轴承的故障,并能有效增强模型对领域专家的理解能力。
- AttributionLab:在可控环境下的特征归因的可信度
设计 AttributionLab 环境用于测试特征归因方法的可靠性,并提供了一个控制实验室,用于研究特征归因方法、识别问题并提出潜在改进。
- 利用奖励一致性进行强化学习中可解释特征发现
通过提出奖励一致性和特征归因作为理解强化学习(RL)代理的中心目标,并提出了一种新的框架(RL 在 RL 中,简称 RL-in-RL)来解决梯度从动作到奖励的脱节问题,该文对 Atari 2600 游戏以及 Duckietown 进行了验证 - 评估特征归因方法的双重视角方法
特征归因方法通过识别相关特征来解释神经网络的预测结果,本研究在 “忠实度” 范式内提出了两个新视角:可靠性和完备性,分别评估特征是否真正预测,以及归因结果是否完整,并基于数学基础提供可计算的定量度量,将这些指标应用于主流归因方法,为分析和比 - 具有乘性平滑的特征归属稳定性保证
本研究探讨机器学习模型的可靠特征归因方法的稳定性和多元平滑方法 (MuS) 的应用,证明了在足够 Lipschitz 模型的掩模特征下弱化的稳定性的保证,通过 LIME 和 SHAP 等特征归因方法的视觉和语言模型的评估,证明了 MuS 为 - 深度学习架构中特征归因的协调:增强可解释性和一致性
本研究旨在检验特征归因法在不同深度学习架构模型间的泛化能力,以及探索归一化的特征解释方法在提高机器学习应用的可解释性和信任度方面的潜力。
- 关于基于删除的特征归因方法的鲁棒性研究
本文针对特征归因方法在存在输入和模型扰动时的鲁棒性问题,通过理论分析和实验验证探究了基于移除特征的归因方法在扰动情况下的稳健性。
- 时间解读:一款用于时间序列数据的统一模型解释库
本文介绍了 $ exttt {time_interpret}$ 库,这是 Captum 的扩展库,专注于时间数据,并包括几种特征归属法和数据集,可以用于解释任何 Pytorch 模型的预测结果。
- 加权莫比乌斯分数:一种统一特征归因框架
本文提出了一个可参数化的归因框架 — 带权重的 M"obius 得分,用于解释黑匣子模型的预测(单一特征和特征间互动),并且发现了一些新的归因方法。通过研究归因方法的向量空间,我们的框架利用标准线性代数工具,并提供了在合作博弈理论和因果中介 - AAAI重新思考解释:深度视觉分类器的输入无关性显著性映射
本文提出了一种新的输入无关的显著性地图方法,它从计算上估计模型对其输出所归属的高级特征并通过可解释的可视化展示,以更加准确和公正地解释模型的行为,同时在大规模模型中成功应用,并且通过识别受损分类器中的后门签名,展示了这种新形式显著性映射的另 - 不要被蒙蔽:说明方法中的标签泄漏及其定量评估的重要性
本文介绍了共有十种 feature attribution 方法,其中七种是 class-dependent 方法,三种为 distribution-aware 方法,并在三个临床数据集上对其进行了评估,提出 SHAP-KL 和 FastS