可解释性是一种安全性：基于解释器的集成方法用于对抗性防御

KDDApr, 2023

可解释性是一种安全性：基于解释器的集成方法用于对抗性防御

Interpretability is a Kind of Safety: An Interpreter-based Ensemble for Adversary Defense

Jingyuan Wang, Yufan Wu, Mingxuan Li, Xin Lin, Junjie Wu...

TL;DR本文提出了 X-Ensemble 模型，采取基于梯度敏感度分析的 DNN 解释器并加以应用于混合攻击检测和修正。使用随机森林模型将多个子探测器组合到一起，以强化对对抗混合攻击的检测。在多种攻击类型和不同场景的实验中，证明了 X-Ensemble 比竞争基线方法更具优势。

Abstract

While having achieved great success in rich real-life applications, deep neural network (DNN) models have long been criticized for their vulnerability to adversarial attacks. Tremendous research efforts have been dedicated to mitigating the threats of →

deep neural network adversarial attacks x-ensemble random forests state-of-the-art attacks

发现论文，激发创造

适当的网络可解释性有助于分类的对抗鲁棒性

通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验，本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的，并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比，在对大扰动攻击的抵抗中，本文的防御方法实现了稳健分类和稳健解释，表现优于最先进的对抗训练方法。

Jun, 2020

利用对抗样本实现可解释的深度神经网络

本研究旨在通过减少神经元的不确定性，提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性，以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性

Jan, 2019

火线下的可解释深度学习

本文是对解释性深度学习系统安全性探索的首次系统研究，发现现有 IDLS 的脆弱性高，提出了一种新的类对抗攻击 ADV^2，并通过实证研究证明了其具有欺骗性和实名性的可行性。文章发现了预测 - 解释不一致性是导致该脆弱性的根源，并尝试针对此进行了一些对策。

Dec, 2018

通过对抗训练实现可解释的计算机视觉模型：揭示鲁棒性和可解释性的关联

通过对深度神经网络进行对抗训练，研究评估其对模型的鲁棒性和解释性的影响，证明了这两个问题之间的相关性。

Jul, 2023

攻击遇上可解释性：基于特征的对抗样本检测

该论文提出基于解释性的对抗样本检测技术，通过对神经元的双向对应推断来对抗样本进行检测，实验表明该方法在检测 7 种不同类型的攻击时能够达到 94% 的准确率，误判率为 9.91%。

Oct, 2018

面向可解释的元学习从事 DDoS 检测

本文提出了一种基于人工免疫系统的严格可解释人工智能驱动的入侵检测方法，重点介绍了决策树模型的严格解释计算过程，并给出了正常流量的素质蕴含说明。

Apr, 2022

通过对抗鲁棒优化学习可解释的特征

本文提出了一种改进神经网络分类器特征可解释性的方法，将对抗鲁棒性引入模型训练过程，并通过评估真实边界框和可视化方法量化特征可解释性，在 NIH ChestX-ray14 数据集上进行了实验，并展示了对抗鲁棒优化方法在定量和定性上提高了特征可解释性。

May, 2019

超越可解释性：利用可解释性改进对抗学习

研究中提出了一种基于梯度解释性的新策略，通过在易感区域引导对单像素对抗扰动的学习，能在保证对抗性的同时，提高收敛速度，并使攻击难以察觉。这一方法充分利用了解释性方法在解释性以外的任务中的有效性。

Apr, 2019

对抗鲁棒性与梯度可解释性的桥梁

本文探讨了敌对训练对 DNN 的梯度提升及其可解释性的影响，发现敌对训练能够使得损失梯度更加符合人类感知，且提出了在测试准确性和损失梯度可解释性之间的权衡以及解决方案。

Mar, 2019

神经网络鲁棒性解释和评估

该研究提出了一种定量指标来评估神经网络模型的内在稳健性，并通过损失可视化的方式解释了对抗攻击和防御机制。该指标具有快速生成、结构和参数规模无关、可靠性高的优点，并提供了一种相对于不同测试设置不变的评估方法。

May, 2019