适当的网络可解释性有助于分类的对抗鲁棒性

ICMLJun, 2020

适当的网络可解释性有助于分类的对抗鲁棒性

Proper Network Interpretability Helps Adversarial Robustness in Classification

Akhilan Boopathy, Sijia Liu, Gaoyuan Zhang, Cynthia Liu, Pin-Yu Chen...

TL;DR通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验，本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的，并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比，在对大扰动攻击的抵抗中，本文的防御方法实现了稳健分类和稳健解释，表现优于最先进的对抗训练方法。

Abstract

Recent works have empirically shown that there exist adversarial examples that can be hidden from neural network interpretability (namely, making network interpretation maps visually similar), or interpretability

adversarial attacks neural networks interpretability defensive schemes robust classification

发现论文，激发创造

通过对抗训练实现可解释的计算机视觉模型：揭示鲁棒性和可解释性的关联

通过对深度神经网络进行对抗训练，研究评估其对模型的鲁棒性和解释性的影响，证明了这两个问题之间的相关性。

Jul, 2023

通过对抗鲁棒优化学习可解释的特征

本文提出了一种改进神经网络分类器特征可解释性的方法，将对抗鲁棒性引入模型训练过程，并通过评估真实边界框和可视化方法量化特征可解释性，在 NIH ChestX-ray14 数据集上进行了实验，并展示了对抗鲁棒优化方法在定量和定性上提高了特征可解释性。

May, 2019

利用对抗样本实现可解释的深度神经网络

本研究旨在通过减少神经元的不确定性，提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性，以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性

Jan, 2019

可解释性是一种安全性：基于解释器的集成方法用于对抗性防御

本文提出了 X-Ensemble 模型，采取基于梯度敏感度分析的 DNN 解释器并加以应用于混合攻击检测和修正。使用随机森林模型将多个子探测器组合到一起，以强化对对抗混合攻击的检测。在多种攻击类型和不同场景的实验中，证明了 X-Ensemble 比竞争基线方法更具优势。

Apr, 2023

图像分类中的网络解释欺骗

本文提出了一种对抗性噪声网络攻击方法，有效地误导了深度神经网络，同时也改变了网络决策的解释算法，并引入一种控制条件测试神经网络解释算法准确性的方法，以促进更健壮的神经网络解释工具发展。

Dec, 2018

理解图像分类决策的对抗解释及改进神经网络的鲁棒性

本文研究神经网络在医疗影像和欺诈检测等敏感领域应用时面临的鲁棒性问题和对抗攻击，并提出一种受 Lipschitz 约束启发的正则化技术以提高神经网络的抗干扰能力。在 ImageNet 分类任务中，本文设计的神经网络的准确性和鲁棒性面积（ARA）为 0.0053，是之前最先进技术的 2.4 倍，拓展了理解神经网络决策的重要方向。

Jun, 2019

神经网络鲁棒性解释和评估

该研究提出了一种定量指标来评估神经网络模型的内在稳健性，并通过损失可视化的方式解释了对抗攻击和防御机制。该指标具有快速生成、结构和参数规模无关、可靠性高的优点，并提供了一种相对于不同测试设置不变的评估方法。

May, 2019

深度学习中的可证明鲁棒解释

本研究提出了一种用于解释深度学习的可靠技术，并证实该方法对付对抗性攻击具有可靠性。

May, 2019

超越可解释性：利用可解释性改进对抗学习

研究中提出了一种基于梯度解释性的新策略，通过在易感区域引导对单像素对抗扰动的学习，能在保证对抗性的同时，提高收敛速度，并使攻击难以察觉。这一方法充分利用了解释性方法在解释性以外的任务中的有效性。

Apr, 2019

对抗鲁棒性与梯度可解释性的桥梁

本文探讨了敌对训练对 DNN 的梯度提升及其可解释性的影响，发现敌对训练能够使得损失梯度更加符合人类感知，且提出了在测试准确性和损失梯度可解释性之间的权衡以及解决方案。

Mar, 2019