稳定和鲁棒解释性的聚合方法

Mar, 2019

Aggregating explanation methods for stable and robust explainability

Laura Rieger, Lars Kai Hansen

TL;DR本文主要研究神经网络的解释方法，并通过对多种解释方法的组合与模型不确定性的降低，得到简洁而精确的聚合解释。同时，论文对解释的鲁棒性进行了研究，提出了相对于单独的解释方法，聚合解释更加能够抵御对抗攻击。

Abstract

Despite a growing literature on explaining neural networks, no consensus has been reached on how to explain a neural network decision or how to evaluate an explanation. Our contributions in this paper are twofold. First, we investigate schemes to combine →

neural networks explanation methods model uncertainty aggregated explanation adversarial attacks

发现论文，激发创造

NLP 模型的解释方法稳健性

本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击，结果表明，输入语句及其语义的微小改变可以在很大程度上扰乱解释方法，达到 86% 的成功率。

Jun, 2022

针对热力图解释的对抗攻击的简单防御

通过多种解释方法的聚合，我们提供了一种有效的方法来防御神经网络上的对抗性攻击，使其对于潜在攻击变得更加稳健。

Jul, 2020

深度神经网络的鲁棒解释

本研究提出了一种理论框架和三种不同技术来提高对解释的稳健性。通过训练方法，激活函数的平滑以及网络 Hessian 的最小化，实现了对提高模型的抗干扰能力。实验结果证实了这些方法的有效性。

Dec, 2020

深度神经网络的基于梯度的解释方法 —— 鲁棒性解释指南

本文介绍了解释深度神经网络的渐变解释性方法，讨论了这些方法如何评估其鲁棒性以及鲁棒性在产生有意义的解释方面的作用，并探讨了渐变方法的局限性和选择解释方法之前应该考虑的最佳实践和属性。

Jul, 2021

通过优化特征归因的聚合来提供可证明更好的解释

该论文旨在通过将不同方法或其变种的多个解释结合起来，系统地提高特征归因的质量，从而改进理解和验证复杂的机器学习模型的预测，该组合策略在多个模型架构和流行的特征归因技术中始终优于个别方法和现有基准。

Jun, 2024

评估用于深度学习在安全领域的解释方法

本文建立了计算机安全领域中解释方法的标准，并研究了六种广泛应用的解释方法在恶意软件检测和漏洞发现中的效用，并得出了选择和应用计算机安全领域解释方法的一般建议。

Jun, 2019

如何验证事后解释方法？你能信赖解释吗？

为了让人工智能系统得到广泛的公众认可，我们必须开发能够解释黑匣子模型（如神经网络）决策的方法。

Oct, 2019

神经网络特征评估中的不一致问题探究

近年来，神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而，理解这些黑盒模型的内部机制仍具挑战性，但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外，通过全面的模拟研究，我们展示了常见缩放和编码技术对解释质量的影响，评估它们在不同效应大小中的功效，并展示了基于排序的评估指标的不一致性的来源。

Apr, 2024

可解释方法中的婴儿大脑注意力方式

该文提出了一种名为 “可解释的几何深度网络” 的端到端学习方法，用于在高维数据中实现精细的可解释性，例如神经成像和神经科学研究。该方法采用学习解释性因素来增强鉴别性表示提取，以实现可解释的预测和分类结果。

Jan, 2023

集成算法处理模型不确定性下的一致解释

该研究利用集成方法，针对预测模型的不确定性问题，提高了解释的一致性，并在金融数据集上进行实验，证明了集成方法在机器学习中提高可靠性的有效性。

Jun, 2023