基于显著性引导训练的深度学习解释性改进

Nov, 2021

基于显著性引导训练的深度学习解释性改进

Improving Deep Learning Interpretability by Saliency Guided Training

Aya Abdelsalam Ismail, Héctor Corrada Bravo, Soheil Feizi

TL;DR本文介绍了一种基于显著性引导培训的神经网络方法，可以有效降低噪声导致的特征归因不准确，并通过实验表明这种方法能够在保持预测性能的同时提高模型可解释性。

Abstract

saliency methods have been widely used to highlight important input features in model predictions. Most existing methods use backpropagation on a modified gradient function to generate saliency maps. Thus, noisy

saliency methods neural networks model interpretability predictive performance gradient

发现论文，激发创造

深度神经网络中解释性与鲁棒性的相互作用探索：一种基于显著性引导的方法

通过使用基于显著性引导的训练（SGT）技术，研究表明它对深度学习模型的鲁棒性和可解释性有显著提升，并提出了一种将 SGT 与标准对抗训练相结合的方法，在确保显著性图质量的同时，实现更大程度的鲁棒性。该方法取得了显著进展，在 MNIST 和 CIFAR-10 数据集上，对于 PGD 攻击的噪声幅度分别为 0.2 和 0.02 时，鲁棒性提高了 35％和 20％，同时生成高质量的显著性图。

May, 2024

SMOOT：基于显著性引导的掩模优化在线训练

通过提出一种基于输入、准确性和模型损失的遮蔽图像数目的最佳确定方法，本文旨在解决遮蔽策略的问题，以提高模型的准确性和突出性，从而证明所提出的解决方案的有效性。

Oct, 2023

可解释梯度的学习范式

本论文研究了卷积网络的可解释性，通过利用显著性图进行分析。我们提出了一种新的训练方法，通过引入正则化损失，使标准反向传播得到的输入图像相对于引导反向传播得到的梯度类似。我们发现，由此得到的梯度在质量上更加清晰，量化上改善了不同网络的可解释性特性，使用了多种可解释性方法。

Apr, 2024

基于显著性训练提高深度神经网络在图像分类中的鲁棒性？

本文研究深度神经网络的鲁棒性问题，特别关注对抗样本的攻击。通过在线显著特征训练，得到视觉可解释性的特征，但实验结果显示，这些特征并不能提升模型对抗样本攻击的性能。

Jun, 2023

在时间序列预测中进行深度学习可解释性基准测试

本篇论文研究了基于 saliency 的可解释性方法在时间序列数据上的应用，提出并比较了多种 saliency 方法在不同神经网络结构上的性能，并提出多种指标进行评估，发现常规的网络结构和 saliency 方法难以可靠和精确地识别时间序列数据中特征的重要性，这主要是由于时间和特征领域的混淆所导致的，但使用文中提出的两步形式的时间 saliency rescaling 方法可以显著提高 saliency 图的质量。

Oct, 2020

态度问题：专注于积极和主动的梯度以提升显著图

本文探讨了从显著性图中挖掘梯度符号的作用，如何更好地理解多类别分类问题，并揭示了卷积神经网络对图像像素的关注和影响。

Sep, 2023

用于模型可解释性的基于遮罩的显著性方法研究与简化

本研究采用掩蔽技术生成显著性地图，发现训练分类器的同时，采用掩蔽技术生成显著性地图具有很高的性能，并且 10 个样本每类也可以显著提高显著性地图的精度。

Oct, 2020

基于梯度的黑盒显著图生成的前向学习

我们引入了一种新的统一框架，用于在黑盒模型中估计梯度并生成显著性地图以解释模型决策。我们采用似然比方法来估计输出到输入的梯度，并利用它们来生成显著性地图。此外，我们提出了块计算技术来提高估计精度。在黑盒模型中进行的大量实验证实了我们方法的有效性，表明准确估计梯度并生成的显著性地图能够解释模型的决策。此外，我们将该方法应用于解释 GPT-Vision，展示了在大规模、闭源和黑盒模型时梯度解释方法的可伸缩性。

Mar, 2024

Saliency 图为什么嘈杂？嘈杂 Saliency 图的原因和解决方案

本文通过提出新的假设 — 噪声可能出现在 Saliency Map 中，因为无关特征会经过 ReLU 激活函数，提出了一种称为 Rectified Gradient 的方法，通过层次阈值反向传播来缓解这个问题，并在 CIFAR-10 和 ImageNet 上的神经网络实验中展示了我们的方法的有效性和其他归属方法的优越性。

Feb, 2019

重新思考解释：深度视觉分类器的输入无关性显著性映射

本文提出了一种新的输入无关的显著性地图方法，它从计算上估计模型对其输出所归属的高级特征并通过可解释的可视化展示，以更加准确和公正地解释模型的行为，同时在大规模模型中成功应用，并且通过识别受损分类器中的后门签名，展示了这种新形式显著性映射的另一个有趣的用途。

Mar, 2023