利用对抗样本实现可解释的深度神经网络

AAAIJan, 2019

利用对抗样本实现可解释的深度神经网络

Towards Interpretable Deep Neural Networks by Leveraging Adversarial Examples

Yinpeng Dong, Fan Bao, Hang Su, Jun Zhu

TL;DR本研究旨在通过减少神经元的不确定性，提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性，以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性

Abstract

Sometimes it is not enough for a DNN to produce an outcome. For example, in applications such as healthcare, users need to understand the rationale of the decisions. Therefore, it is imperative to develop algorithms to learn models with good interpretability (Doshi-Velez 2017). An impo

dnns interpretability neurons adversarial examples training algorithm

发现论文，激发创造

通过对抗鲁棒优化学习可解释的特征

本文提出了一种改进神经网络分类器特征可解释性的方法，将对抗鲁棒性引入模型训练过程，并通过评估真实边界框和可视化方法量化特征可解释性，在 NIH ChestX-ray14 数据集上进行了实验，并展示了对抗鲁棒优化方法在定量和定性上提高了特征可解释性。

May, 2019

适当的网络可解释性有助于分类的对抗鲁棒性

通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验，本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的，并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比，在对大扰动攻击的抵抗中，本文的防御方法实现了稳健分类和稳健解释，表现优于最先进的对抗训练方法。

Jun, 2020

可解释性是一种安全性：基于解释器的集成方法用于对抗性防御

本文提出了 X-Ensemble 模型，采取基于梯度敏感度分析的 DNN 解释器并加以应用于混合攻击检测和修正。使用随机森林模型将多个子探测器组合到一起，以强化对对抗混合攻击的检测。在多种攻击类型和不同场景的实验中，证明了 X-Ensemble 比竞争基线方法更具优势。

Apr, 2023

利用语义信息提高深度神经网络的可解释性

本文提出了一种新颖的技术，通过利用人类描述中蕴含的丰富语义信息来提高深度神经网络的可解释性，特别是在视频字幕任务中，通过一个可解释损失将人类描述中的一组语义相关主题集成到模型中，并提出了一种预测差异最大化算法来解释每个神经元的学习特征。实验结果表明这种方法在视频字幕和视频动作识别方面非常有效。

Mar, 2017

人工神经网络可解释性调研

该论文系统地回顾了近期研究的理解神经网络机理、解释深度学习应用特别是在医疗领域方面以及讨论了解释性研究的未来方向，如与模糊逻辑和脑科学的关系。

Jan, 2020

攻击遇上可解释性：基于特征的对抗样本检测

该论文提出基于解释性的对抗样本检测技术，通过对神经元的双向对应推断来对抗样本进行检测，实验表明该方法在检测 7 种不同类型的攻击时能够达到 94% 的准确率，误判率为 9.91%。

Oct, 2018

迈向透明 AI：深度神经网络内部结构解释综述

本文回顾了超过 300 种内部可解释性技术，并引入了一种分类方法，介绍了它们对神经网络的什么部分（权重、神经元、子网络或潜在表示）进行解释，以及它们是在训练期间（内在）还是在训练后（事后）实现的。这篇文章强调了诊断、调试、敌对性和基准测试在未来研究中的重要性，以便使可解释性工具在实际应用中更有用。

Jul, 2022

关于可证实解释性研究的探索

本文介绍了深度神经网络的可解释性研究及其方法，指出目前的方法存在的局限和风险，并提出了以可证伪性为核心的新的研究框架，目的是为了产生更具意义和可靠的可解释性方法。

Oct, 2020

理解图像分类决策的对抗解释及改进神经网络的鲁棒性

本文研究神经网络在医疗影像和欺诈检测等敏感领域应用时面临的鲁棒性问题和对抗攻击，并提出一种受 Lipschitz 约束启发的正则化技术以提高神经网络的抗干扰能力。在 ImageNet 分类任务中，本文设计的神经网络的准确性和鲁棒性面积（ARA）为 0.0053，是之前最先进技术的 2.4 倍，拓展了理解神经网络决策的重要方向。

Jun, 2019

深度学习的可视化可解释性调查

本文综述了解神经网络表示和学习可解释 / 解耦的中间层表示的最新研究进展，并重点介绍了卷积神经网络 (CNNs) 的可视化、诊断、解耦、学习及其在可解释人工智能方面的前景趋势。

Feb, 2018