- 基于模型解释的联邦机器遗忘的选择性参数更新
提出了一种基于模型解释的更有效和高效的联邦遗忘方案,通过理解深层网络和个别通道重要性,选择已训练模型中对需要遗忘的数据至关重要的通道,并对这些通道进行微调,以消除这些数据的贡献。实验结果表明该方法的有效性。
- KDD利用归因方法解释太阳耀斑预测的全盘深度学习模型
该研究利用深度学习方法预测太阳耀斑,特别关注纬度较高的耀斑,并使用解释方法提供对模型预测的后续定性解释。通过训练全盘磁图图像的小时级别线状物的耀斑预测模型,并采用二进制预测模式,预测在随后 24 小时内可能发生的≥M 级耀斑。然后,采用数据 - FairLay-ML: 数据驱动型社会关键算法中不公平现象的直观解决方案
本文介绍了 FairLay-ML,一种结合了已有研究工具的图形用户界面,能够提供机器学习模型中不公平逻辑的直观解释,具有易于安装、提供实时黑盒解释和可执行的解决方案等特点。
- 任何深度的 ReLU 网络都是浅层的
本文证明了每个深度 ReLU 网络可以被重写为具有扩展实值权重的功能相同的三层网络,并提供了一个算法,可以在给定深度 ReLU 网络的情况下找到相应浅层网络的显式权重,以透明地生成模型行为的解释。
- 语言模型并不总是说他们想的:链状思维提示中的不忠实解释
本研究发现 Large Language Models 的 Chain-of-Thought Reasoning (思维的串联过程)能够提供合理的解释,但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识,这可能导致人们过度信任 - ICLR可解释性作为统计推论
通过统计推断方法构建了一种概率模型,通过学习模型参数和使用神经网络选择器来实现解释性预测,并利用新数据集进行了实验验证,证明了使用多重插补提供了更合理的解释。
- EMNLP校准相遇解释:一种简单有效的模型置信度估计方法
本文提出 CME 方法,结合模型解释来降低非归纳属性的模型信心度,进而提高预测的后验概率校准性能。在六个数据集上的实验表明,该方法提高了所有设置下的校准性能,并在温度缩放的情况下进一步降低了预期校准误差。
- 功能机制下的差分隐私反事实推断
本研究提出了一个新方法来生成具有差分隐私特征的对事实的推断(DPC)。该方法使用自编码器构建带噪声的类原型,然后根据差分隐私的后处理特点,从潜在的原型中导出 DPC,以在保护隐私的同时维护对事实的解释角色。
- 模型无关解释的因果解释效应
本研究旨在解决机器学习模型预测个体实例时特征贡献和整体特征重要性的估计问题,提出了一种基于假设理想实验的因果效应定义,并构建了基于因果效应的透明且有意义的本地和全局解释方法,其数据驱动估计和实验验证表明了该方法的有效性及实用性。
- CEBaB:评估现实概念对自然语言处理模型行为的因果影响
本研究将模型解释问题视为因果推断问题,并引入新的基准数据集 CEBaB 来评估自然语言处理中基于概念的解释方法的质量,从而比较涵盖不同假设和概念的问题的质量,以建立自然度量方法。
- 通过策略规范化对智能体进行特征化的强化学习
该论文提出了一种基于正则化的强化学习方法,使代理人的行为具有指定的特征,从而增强了透明度和可解释性,并可应用于金融领域的个性化投资组合优化。
- 对抗 Shapley 加性解释
本文提出了一种新的 SHAP 方法,Counterfactual SHAP,以增强和澄清可操作性和特征归因之间的联系,通过使用反事实信息构建背景数据集,在许多合成示例中展示了 Shapley 值在可操作性场景中仔细考虑背景数据集的必要性,并 - 解释型自然语言处理的本地解释概览
研究探讨了提高深度神经网络在自然语言处理(NLP)任务中的可解释性的各种方法,包括机器翻译和情感分析,并对术语 “可解释性” 及其各个方面进行了全面讨论。这项工作列举了与局部解释相关的各种方法,并将其分为三类:1)通过相关的输入特征解释模型 - Outcome-Explorer: 一种因果关系引导的交互式视觉界面,用于可解释的算法决策
本文提出了一种基于因果关系的预测与交互模型,不需要使用任何辅助模型,可帮助专家和非专家用户深入理解模型,通过进行 think-aloud 会话和用户研究,我们证明了我们的方法具有很好的可行性。
- 去除来解释:模型解释的统一框架
本文提出一类新的模型解释方法 - 基于删除的解释,并提出一个三个方面的框架来描述和统一 26 种已有的模型解释方法。通过这个分析,我们发展了一个统一的框架,帮助实践者更好地理解模型解释工具,并为未来的可解释性研究提供了坚实的理论基础。
- 特征去除是模型解释方法的统一原则
本研究着眼于解释模型,提出一种基于特征删除的解释框架,包括 26 种方法(如 SHAP 和 LIME 等),揭示这些方法间的相似性,为选择和使用工具提供了有力支持,并且为进一步的可解释 AI 研究提供有益方向。
- ICLR为合适的原因而记忆:阐释减少灾难性遗忘
探索使用模型解释减少极易遗忘现象,作者通过记忆和规则优化方法和可视化模型解释实验证明其有效性,并在标准和少样本情景下评估了该方法,证明该方法有助于改善模型的性能。
- 利用梯度扩展符号方法用于神经模型解释
本文提出结合梯度下降和符号技术的方法来解决神经网络中最相关的最小区域的问题,并使用基于综合梯度的梯度信息来提高其可扩展性,达到模型解释的目的。通过对 MNIST、ImageNet 和 Beer Reviews 这三个数据集的实验,证明了这种 - 可解释的深度学习:初学者的指南
本文提供了一份指南,让初学者可以更轻松地掌握可解释深度学习的基础方法和相关研究领域,介绍了三个定义了基础方法空间的简单维度、讨论了模型解释的评估以及可解释性在其他相关研究领域中的位置,并详细阐述了面向用户的解释设计和可解释深度学习可能的未来 - ICML从 CNN 中提取可解释的基于概念的决策树
该论文提出了一种从 CNN 隐藏层激活中推断标记的概念数据并通过浅层决策树解释这些概念的方法,这可以提供关于 CNN 模型认为重要的概念以及这些概念如何相互作用的信息,实验表明提取的决策树在树深度较低时能够准确地代表原始 CNN 的分类,从