- 选择性解释
我们提出了一种选择性解释的特征归因方法,它检测出深度学习模型产生低质量解释的情况,并使用初始猜测解释技术改善这些解释,从而使实践者能够在提供初始猜测的解释之间进行选择,从而弥补了深度学习模型及其高质量对应物之间的差距。
- 注意机制不学习累加模型:重新思考变压器中特征重要性
我们解决了将特征归属方法应用于主导自然语言处理等领域的转换器架构的关键挑战。我们形式上证明了一项令人担忧的不兼容性:转换器结构无法与常见的特征归因的代理模型对齐,从而削弱了这些传统解释方法的基础。为了解决这个差异,我们引入了 Softmax - 神经网络特征评估中的不一致问题探究
近年来,神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而,理解这些黑盒模型的内部机制仍具挑战性,但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外,通过全面的模拟研究,我们展示了常见缩放和编码 - ACL多语言和单语细调语言模型的解释忠实度比较
在实际的自然语言处理应用场景中,研究人员不仅希望提高预测性能,还寻求模型预测的准确解释。已有研究探讨了不同因素对解释的准确性的影响,但多语言和单语言模型之间解释的准确性差异尚未探索。通过对五种语言和五种常用特征归因方法进行广泛实验,我们发现 - 通过双阶段干扰测试的必要性和充分性特征归因方法对因果解释
机器学习中解释性问题的研究,通过特征归因方法(FAMs)测量每个特征的贡献,提出利用概率作为特征重要性的度量,通过 Necessity and Sufficiency(FANS)方法进行特征归因,最终与梯度优化相结合提取重要子集,在六个基准 - ReAGent:面向生成语言模型的无模型特征归因方法
我们提出了一种递归归因生成器(ReAGent)方法,用于生成语言模型的模型无关特征归因,通过计算原始输入和替换部分输入进行比较,确保我们的方法在各种解码器模型中提供更加准确的关键词重要性分布。
- 通过鲁棒性改进和解释引导训练实现忠实的文本分类解释
提出了一种名为 REGEX 的方法,通过改善模型的鲁棒性和引导解释训练,实现对文本分类的更准确的特征解释,实验证明 REGEX 在各种设置下提高了解释的准确性,并在两个随机化测试中取得了一致的增益。此外,使用 REGEX 产生的高亮解释来训 - 量子计算机上的肽结合分类
我们对使用近期量子计算机在计算生物学领域进行的任务进行了广泛的研究,通过构建基于参数化量子电路的量子模型,我们对与治疗蛋白设计相关的任务进行序列分类,并发现与规模相似的经典基线相比具有竞争性能。
- 冲突感知特征解释
我们提出了一种新颖的特征归因方法 CAFE(冲突感知特征解释),它解决了现有方法中的三个限制:它们忽视冲突特征的影响,不考虑偏差项的影响,以及对基础激活函数的局部变化过于敏感。与其他方法不同,CAFE 在溯源神经元输入的影响上提供了防止效应 - 一种全面可靠的特征归因方法:双侧去除重构(DoRaR)
通过改进方法,我们引入了一种名为 DoRaR 的特征归属方法,解决了透明度受限、黑盒模型等困扰,通过对 MNIST、CIFAR10 和自行合成的数据集的全面测试,证明了 DoRaR 特征归属方法能有效绕过上述问题,并有助于训练优于其他最先进 - 使用特征归因增强最先进的分类器以促进安全分析
该研究论文提出了 FINER 框架,用于生成高保真度和高可理解性的风险检测分类器解释。该框架通过从模型开发者、特征归因设计者和安全专家中获得解释,通过解释引导的多任务学习策略来提高保真度,并通过任务知识来提高可理解性。针对风险检测,FINE - 通过语义匹配修正特征归因方法中的确认偏差
本文介绍了解决黑盒模型中 feature attribution 方法的一个严重问题 —— 在人类概念下的可靠解释性问题,提出了一种基于语义匹配的结构化方法来评估模型的可解释性,并在实验中得出了关于评估语义匹配的指标和结果,旨在解决 XAI - 使用 innsight 包解释深度神经网络
这篇研究论文介绍了一个名为 innsight 的 R 包,可以用于解释深度神经网络的预测结果,该包不依赖于深度学习库,由于使用了 torch 库,因此运行效率高,并且提供了可视化工具。
- ACL融入归因重要性以提高忠实度度量
本文提出了一个简单而有效的软擦除标准,用于计算特征归因方法的充分性和全面性,实验结果表明,相较于硬擦除标准,该方法更好地反映了预测的重要部分,适用于自然语言处理中的各种任务与不同特征归因方法。
- 为深度神经网络基准测试可解释性工具
本文提出 Trojan rediscovery 作为一项基准测试任务,以评估可解释性工具生成工程相关见解的实用价值,并设计了两种基准测试方法。最终将这些方法应用到 16 个特征归因 / 显著性方法和 9 个特征合成方法中,发现了现有工具之间 - AAAI通过局部梯度对齐实现更强健的解释性
本文提出新的思路,通过特征归因归一化改进局部梯度,提出了 L2 范数和余弦距离的规范化不变的损失函数作为正则化项,在 CIFAR-10 和 ImageNet-100 上实验表明该方法大大提高了解释的鲁棒性。
- 评估心电图特征归因方法
通过评估 11 种特征归因方法的三个评估指标,即定位分数、指向游戏和退化得分,我们发现 Grad-CAM 这种方法非常适用于解释心电图 (ECG) 检测,并且比第二优秀的方法表现更加卓越。
- EMNLP关于时间概念漂移对模型解释的影响
研究模型训练数据时间跨度与目标数据不同(异步设置)时,时序变化如何影响模型解释正确性,发现不同方法的特征归因存在互相矛盾的行为,需要更多的指标来评估后期解释正确性。
- 深度图模型的忠实解释
本文研究了图神经网络(GNNs)的可信解释,并提供一种全新的通用方法来形式化描述 GNNs 的可信解释,包括特征归因和子图解释。作者提出的 KEC 方法从图的结构和其 k 次幂得到信息,可以最大程度地提高生成解释的准确性以及说明原始 GNN - 关于忠实性的理论:连续数据上可微分类器的忠实解释
重复研究 “忠实度” 在连续数据中的应用,提出了定量和定性忠实度的正式定义,并研究了定性和定量忠实度的局限性,还探索了这些方法在连续数据和可微分类器上的适用性。