- 提高多变量时间序列分类的解释方法评估和可操作性
基于多元时间序列分类的解释方法研究,通过评估和改进解释方法的精确度和效率,展示解释方法在频道选择的应用中具有的可操作性,并展示基于扰动法的解释方法在各种数据集、分类器和任务中的优势。
- 基於後門的可解釋 AI 評估方法的高保真度評估基準
我们提出了一个遵循可信度准则的基于后门攻击的可解释人工智能基准(BackX),并且通过使用我们的基准对现有方法进行了综合比较和评估,同时为防御后门攻击提供了指导。
- 综合梯度相关性:一种数据集层面的归因方法
本文介绍了一种名为集成梯度相关性(IGC)的新方法,它将数据集属性与模型预测得分相关联,并通过与相关组件的直接求和实现区域特定分析。在脑部 fMRI 神经信号的图像特征表示以及神经人口感受野(NSD 数据集)的估计以及手写数字识别(MNIS - 通过偏好学习提高大型语言模型的属性文本生成能力
大型语言模型在自然语言处理中被广泛采用,但是它们面临着生成不可靠内容的挑战。最近的研究旨在通过引用作为证据来减少错误信息和产生幻象。然而,当前的引用方法通常集中在检索阶段和自动评估上,忽视了在人类学术写作中增强可信度的引用机制的反映。本文通 - 特征强调:揭示自然图像中的哪些特征应对
解释可视化图像中神经网络特征响应的位置和内容的新方法:feature accentuation。
- ACL现成孪生 transformer 网络的近似归属度
对 Siamese encoders 进行了方法验证,分析了其对语言学不同方面的关注,以及其词汇偏好。
- 使用 SHAP 和 LIME 的可证明稳定特征排序
基于多重假设检验的思想,我们提出了一种特征归因方法 RankSHAP,能够以高概率正确排列最重要的特征,同时保证了计算效率。在实证结果中,我们还基于之前的工作为 LIME 扩展了类似的结果,确保以正确的顺序选择最重要的特征。
- Graph 神经网络归因的扰动评估中的差异
该研究通过重新训练网络来评估图神经网络归因方法,揭示了归因方法在不同数据集和网络上的可变性,并发现 GNNExplainer 与任意边重要性指定方法表现相似,研究得出重新训练评估不能作为广义基准,而应作为一种工具集来评估特定网络、数据集和稀 - CRISPR:从指令跟踪语言模型中消除偏置神经元
该研究介绍了一种用于减轻大型语言模型中指令 - 标签偏见的新的偏见缓解方法,称为 CRISPR,该方法利用属性方法识别有影响的偏见神经元并通过修剪来消除这些偏见神经元。实验结果表明,CRISPR 在减轻指令 - 标签偏见方面非常有效,在社交 - ACL用勺子挖空海洋:我们应该编辑模型吗?
质疑直接模型编辑方法在修正 LLM 生成的事实错误方面的有效性,提出与其类似但不同的三种方法:基于检索的体系结构、概念擦除方法和归因方法,认为直接模型编辑不能作为 LLMs 内在缺陷的系统性疗法,尽管在提高模型可解释性方面具有潜力,但通过强 - 黑盒环境下类梯度解释:当黑盒解释变得如白盒一样好
本文介绍了一种以黑盒为基础的梯度估计解释方法,称为 GEEX,通过分析梯度来揭示数据驱动方法(如深度学习模型)中做出决策的最重要特征,并将其与路径方法相结合,得到了用于图像数据的 iGEEX 方法,证明了该方法在黑盒场景中优于现有方法,并有 - KDD利用归因方法解释太阳耀斑预测的全盘深度学习模型
该研究利用深度学习方法预测太阳耀斑,特别关注纬度较高的耀斑,并使用解释方法提供对模型预测的后续定性解释。通过训练全盘磁图图像的小时级别线状物的耀斑预测模型,并采用二进制预测模式,预测在随后 24 小时内可能发生的≥M 级耀斑。然后,采用数据 - 使用预 - Softmax 分数的归因方法的一个漏洞
讨论了涉及一类用于给卷积神经网络输出提供解释的属性方法的漏洞,这类网络对对抗攻击是脆弱的,其中输入的微小扰动可能会改变模型的输出,而本文关注的是,在不改变模型输出的情况下,模型的微小修改可能对属性方法产生的影响。
- 集成梯度归因方法的四个公理特征
本研究介绍了一种称为 Integrated Gradients 方法的基线归因方法和其四个公理特征,用以揭示神经网络及其他机器学习模型的内部工作机制。
- 分发协同功能:统一博弈论交互方法以实现机器学习可解释性
本文介绍了一种基于博弈论的归因和 k 阶相互作用方法的统一框架,重点是解释和解释模型的透明性。作者指出,各种方法都基于其在协同方案中的政策,并介绍了基于梯度的独特方法。最后,作者提出了需要深入了解归因和交互方法的目标和上下文。
- CVPR反事实推论对读取胸部 X 光片的影响
本研究评估反事实解释对于胸部 X 光解读的影响,结果表明使用反事实解释能够增加放射科医生对于正确诊断的信心,尤其在 Mass 和 Atelectasis 等特定预测任务中。
- 通过系统评估更好地理解归因方法的差异
本研究提出了三种评估方案以更可靠地衡量不同的图像归因方法的可信度,并在一系列模型上研究了一些广泛使用的归因方法的优缺点,并提出一种后处理平滑步骤以显著提高某些归因方法的性能。
- 使用 Taylor 相互作用理解和统一十四种归因方法
本文首次将诸多启发式设计的 14 种归因方法的核心机制,统一为一个数学系统,证明这 14 种方法的归因得分都可以重构为两种效应的加权求和,即每个输入变量的独立效应和输入变量之间的相互作用效应,并提出 3 个公平分配效应的原则来评价这 14 - CRAFT:概念递归激活分解技术实现可解释性
本研究提出了一种名为 CRAFT 的新方法,用于识别基于概念的解释,并介绍了 3 种新的自动概念提取方法。该方法的实验表明,适当粒度的有意义概念的识别可以提供有用的信息,并且比仅强调最显著部分的归因方法的效果好。
- 傅里叶分析实现一致和真实的解释
该研究提出了一种称为真实解释的新概念,应用布尔函数的傅里叶分析来提供严谨的保证,以支持 ML 解释的 what-if 场景,并通过实验表明,与其他方法相比,我们的方法在各种半径大小的邻域中实现了 2 倍 - 50 倍左右的更低的解释误差。