通过对抗训练实现可解释的计算机视觉模型：揭示鲁棒性和可解释性的关联

Jul, 2023

通过对抗训练实现可解释的计算机视觉模型：揭示鲁棒性和可解释性的关联

Interpretable Computer Vision Models through Adversarial Training: Unveiling the Robustness-Interpretability Connection

Delyan Boychev

TL;DR通过对深度神经网络进行对抗训练，研究评估其对模型的鲁棒性和解释性的影响，证明了这两个问题之间的相关性。

Abstract

With the perpetual increase of complexity of the state-of-the-art deep neural networks, it becomes a more and more challenging task to maintain their interpretability. Our work aims to evaluate the effects of adversaria

deep neural networks adversarial training interpretability robustness adversarial attacks

发现论文，激发创造

通过对抗鲁棒优化学习可解释的特征

本文提出了一种改进神经网络分类器特征可解释性的方法，将对抗鲁棒性引入模型训练过程，并通过评估真实边界框和可视化方法量化特征可解释性，在 NIH ChestX-ray14 数据集上进行了实验，并展示了对抗鲁棒优化方法在定量和定性上提高了特征可解释性。

May, 2019

适当的网络可解释性有助于分类的对抗鲁棒性

通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验，本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的，并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比，在对大扰动攻击的抵抗中，本文的防御方法实现了稳健分类和稳健解释，表现优于最先进的对抗训练方法。

Jun, 2020

计算机视觉中鲁棒性和可解释模型的深度学习

最近在机器学习和深度学习研究领域的重大突破为利用海量数据和优化包含数百万参数的庞大模型以获得图像处理方面的准确网络提供了出色的工具，进而为在自动化和人工智能行业中使用人工智能打开了巨大的机遇。然而，随着越来越多的模型在实践中得到部署和使用，也出现了许多挑战。本文介绍了解决在实践中使用机器学习和深度学习所面临的鲁棒性和可解释性挑战的多种方法。

Mar, 2024

对抗鲁棒性与梯度可解释性的桥梁

本文探讨了敌对训练对 DNN 的梯度提升及其可解释性的影响，发现敌对训练能够使得损失梯度更加符合人类感知，且提出了在测试准确性和损失梯度可解释性之间的权衡以及解决方案。

Mar, 2019

Robust or Private？对抗训练使模型更容易受到隐私攻击

本文研究了对抗训练的对抗攻击容忍性与隐私攻击容忍性之间的关系，通过对 CIFAR-10 数据集进行三种不同类型的模型反演攻击，揭示了对抗训练模型输入空间存在的问题。

Jun, 2019

利用对抗样本实现可解释的深度神经网络

本研究旨在通过减少神经元的不确定性，提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性，以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性

Jan, 2019

通过预测和解释来提高模型的稳健性的对抗训练

本文提出了一种名为 FLAT 的特征级对抗性训练方法，该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致，从而提高模型对预测和解释方面的鲁棒性。

Mar, 2022

深度学习中的可证明鲁棒解释

本研究提出了一种用于解释深度学习的可靠技术，并证实该方法对付对抗性攻击具有可靠性。

May, 2019

关于显著图和对抗鲁棒性

本文提出了一种基于 Saliency map 的对抗训练方法（SAT），通过使用详细的弱显著性图（如边界框和分割掩码）来改进模型的对抗鲁棒性，同时展示了如何进一步提高性能。

Jun, 2020

对抗性鲁棒性和显著性图解释性之间的联系

本文研究神经网络的对抗漏洞，证明模型对抗攻击的鲁棒性与显著图的对齐程度正相关，使用局部 Lipschitz 正则化训练模型进行实验并分析神经网络的非线性特性对此关系的影响。

May, 2019