当对抗性攻击变成可解释性因果解释

Jun, 2022

当对抗性攻击变成可解释性因果解释

When adversarial attacks become interpretable counterfactual explanations

Mathieu Serrurier, Franck Mamalet, Thomas Fel, Louis Béthune, Thibaut Boissin

TL;DR本研究采用 1-Lipschitz 神经网络学习最佳传输问题的双重损失，研究发现，模型的梯度既是传输计划的方向，也是最接近的对抗攻击方向。通过在此类网络上应用简单的显著性图方法，我们得出结论：这种方法成为了可靠的解释方法，并在无限制模型上表现优于现有技术。我们提出的网络已被证明具有认证的鲁棒性，并证明了它们也可以用一种快速简单的方法进行解释。

Abstract

We argue that, when learning a 1-lipschitz neural network with the dual loss of an optimal transportation problem, the gradient of the model is both the direction of the transportation plan and the direction to t

1-lipschitz neural network optimal transportation problem adversarial attack counterfactual explanation xai metrics

发现论文，激发创造

对抗性反事实视觉解释

本文提出了一种由扰动攻击变成语义上的有意义的扰动来进行反事实解释的方法，该方法在扰动攻击时使用去噪扩散概率模型以避免高频率和超出分布的扰动，从而使得研究目标模型不受其鲁棒性水平的限制。通过在多个测试平台上的实验验证，我们的反事实解释方法展现出明显的优势。

Mar, 2023

使用对抗性训练简洁解释神经网络

本文提出了对于神经网络的输出解释的一种新方法 —— 基于特征归因向量，探究了该方法的 “稀疏性” 及 “稳定性”，对单层网络进行理论探索证明使用对抗训练可以获得稀疏的特征归因向量，该特性不仅在单层网络中适用，而且在深度神经网络中也具有普适性；并对现有的网络训练方法进行对比探究。

Oct, 2018

对抗性鲁棒性和显著性图解释性之间的联系

本文研究神经网络的对抗漏洞，证明模型对抗攻击的鲁棒性与显著图的对齐程度正相关，使用局部 Lipschitz 正则化训练模型进行实验并分析神经网络的非线性特性对此关系的影响。

May, 2019

理解图像分类决策的对抗解释及改进神经网络的鲁棒性

本文研究神经网络在医疗影像和欺诈检测等敏感领域应用时面临的鲁棒性问题和对抗攻击，并提出一种受 Lipschitz 约束启发的正则化技术以提高神经网络的抗干扰能力。在 ImageNet 分类任务中，本文设计的神经网络的准确性和鲁棒性面积（ARA）为 0.0053，是之前最先进技术的 2.4 倍，拓展了理解神经网络决策的重要方向。

Jun, 2019

使用多目标优化探索反事实解释中的可信度、变化强度和对抗能力之间的权衡

使用多目标优化模型，通过生成逆因模型生成可信的对抗实例，以提高深度学习模型的透明度，检测偏见和数据不当的形式。

May, 2022

建立可靠的神经网络解释：模型解释的局部平滑视角

本研究提出了一种基于光滑景观的预测且稳定的神经网络模型解释方法，通过批量学习噪声复制品并采用 L1 规范化方法对显著性地图进行训练，使模型学习得到局部光滑模型解释，有效地找出与预测结果相关的输入要素并且在对抗样本测试中表现优异。

Mar, 2021

使用带有铰链正则化的最优输运实现分类鲁棒性

利用最优传输的 Kantorovich- Rubinstein 对偶公式的铰链正则化版本，提出了一个新的框架来学习 1-Lipschitz 神经网络，并在此基础上进行分类。该方法能够提高网络的鲁棒性、具有可验证的鲁棒性边界，并在不降低准确度的前提下解决了这一问题。

Jun, 2020

攻击图结构时梯度告诉我们什么

该研究证明了图神经网络容易受到对抗性攻击，在此基础上提出了一种多跳聚合的信息传递和正则化方法以增强对抗攻击的隐蔽性和攻击性能。

Aug, 2022

适当的网络可解释性有助于分类的对抗鲁棒性

通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验，本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的，并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比，在对大扰动攻击的抵抗中，本文的防御方法实现了稳健分类和稳健解释，表现优于最先进的对抗训练方法。

Jun, 2020

语义与解释：为什么反事实解释在深度神经网络中产生对抗样本

深度学习系统的可解释性要求研究人员找到解释深层神经网络表示语义的方法，尽管对于某些情况，对立解释似乎非常有效，但它们与对抗示例在形式上是等价的，这为可解释性研究人员提供了明显的悖论。

Dec, 2020