SCAAT：通过关注点约束自适应对抗训练提升神经网络可解释性

Nov, 2023

SCAAT：通过关注点约束自适应对抗训练提升神经网络可解释性

SCAAT: Improving Neural Network Interpretability via Saliency Constrained Adaptive Adversarial Training

Rui Xu, Wenkang Qin, Peixiang Huang, Haowang, Lin Luo

TL;DR我们提出了一种名为 SCAAT 的模型无关学习方法，通过在显著性图的指导下构建对抗样本，改善了深度神经网络 (DNNs) 的可解释性，使显著性图更加精确和可靠，而不需要对模型架构进行任何修改。通过在多个 DNN 和不同图像数据集上评估生成的显著性图的质量，结果表明 SCAAT 显著提高了 DNNs 的可解释性，提供更可靠的显著性图而不损失其预测能力。

Abstract

deep neural networks (DNNs) are expected to provide explanation for users to understand their black-box predictions. saliency map is a common form of explanation illustrating the heatmap of feature attributions,

deep neural networks saliency map interpretability scaat adversarial training

发现论文，激发创造

关于显著图和对抗鲁棒性

本文提出了一种基于 Saliency map 的对抗训练方法（SAT），通过使用详细的弱显著性图（如边界框和分割掩码）来改进模型的对抗鲁棒性，同时展示了如何进一步提高性能。

Jun, 2020

基于显著性引导训练的深度学习解释性改进

本文介绍了一种基于显著性引导培训的神经网络方法，可以有效降低噪声导致的特征归因不准确，并通过实验表明这种方法能够在保持预测性能的同时提高模型可解释性。

Nov, 2021

深度神经网络中解释性与鲁棒性的相互作用探索：一种基于显著性引导的方法

通过使用基于显著性引导的训练（SGT）技术，研究表明它对深度学习模型的鲁棒性和可解释性有显著提升，并提出了一种将 SGT 与标准对抗训练相结合的方法，在确保显著性图质量的同时，实现更大程度的鲁棒性。该方法取得了显著进展，在 MNIST 和 CIFAR-10 数据集上，对于 PGD 攻击的噪声幅度分别为 0.2 和 0.02 时，鲁棒性提高了 35％和 20％，同时生成高质量的显著性图。

May, 2024

ACAT：医学影像分类与检测的对抗性反事实关注

本文提出了一种基于显著性图的 Adversarial Counterfactual Attention（ACAT）框架，可以没有手动注释地分隔医学影像中感兴趣区域，显著提高了病灶 CT 扫描和肺部 COVID-19 相关发现的分类精度。

Mar, 2023

基于显著性训练提高深度神经网络在图像分类中的鲁棒性？

本文研究深度神经网络的鲁棒性问题，特别关注对抗样本的攻击。通过在线显著特征训练，得到视觉可解释性的特征，但实验结果显示，这些特征并不能提升模型对抗样本攻击的性能。

Jun, 2023

基于显著性的防御对抗样本的方法（SAD）

本研究提出了一种基于视觉显著性的方法，用于清理受对抗性攻击影响的数据。该模型利用对抗性图像的显著区域提供有针对性的对策，并在相对减少清理后图像的损失的同时，通过评估各种指标的准确性来证明它的有效性。

Mar, 2020

SCAT: 基于对抗训练的鲁棒自监督对比学习在文本分类中的应用

本文提出了一种名为 SCAT 的自我监督对比式学习的新型框架，它可以在不要求已标记数据的情况下学习稳健的表示，并且可以增强现有预训练语言模型的稳健性。

Jul, 2023

对抗性鲁棒性和显著性图解释性之间的联系

本文研究神经网络的对抗漏洞，证明模型对抗攻击的鲁棒性与显著图的对齐程度正相关，使用局部 Lipschitz 正则化训练模型进行实验并分析神经网络的非线性特性对此关系的影响。

May, 2019

评估用于卷积神经网络的显著性图解释：用户研究

本文研究使用的 CNN 在一些图像分类问题中表现非常好，但是解释 CNN 的操作是非常困难的。因此，本文提出了一种新型的解释算法，称为 LRP 算法，通过人机交互的方式发现这种算法被用于图像分类问题的特定图像特征敏感性，并针对该方法进行了用户评估。评估结果表明，该算法可以帮助参与者学习一些系统对特定图像特征的敏感性，但是对于新图像的分类任务提供的帮助似乎非常有限。因此，HCI 和人工智能社区需要超越实例级别的解释算法，继续研究解释 AI 的设计和进一步研究的问题。

Feb, 2020

基于显著性的可解释性方法评估

本文结合三个人体实验研究基于显著性的可解释性方法对于卷积神经网络的解释效果，并评估其可行性。

Jun, 2021