分类稳健性与解释稳健性真的高度相关吗？通过输入损失函数的分析

Mar, 2024

分类稳健性与解释稳健性真的高度相关吗？通过输入损失函数的分析

Are Classification Robustness and Explanation Robustness Really Strongly Correlated? An Analysis Through Input Loss Landscape

PDF

Tiejin Chen, Wenwang Huang, Linsey Pang, Dongsheng Luo, Hua Wei

TL;DR该研究论文探讨了深度学习稳健性的关键领域，挑战了图像分类系统中分类稳健性和解释稳健性之间存在固有相关性的传统观念。通过一种利用聚类的新颖评估方法，有效评估解释稳健性，我们证明增强解释稳健性并不一定会使输入损失函数的梯度相对于解释损失变得更平坦，与更平坦的损失函数梯度有较好的分类稳健性的理论相反。为了对这一矛盾进行深入研究，我们提出了一种革命性的训练方法，旨在根据解释损失来调整损失函数的梯度。通过这种新的训练方法，我们发现虽然这种调整可以影响解释的稳健性，但对分类的稳健性没有影响。这些发现不仅挑战了两种稳健性之间的强相关假设，还为理解损失函数梯度和解释损失之间的关系开辟了新的途径。

Abstract

This paper delves into the critical area of deep learning robustness, challenging the conventional belief that classification

deep learning robustness classification explanation loss landscape

发现论文，激发创造

建立可靠的神经网络解释：模型解释的局部平滑视角

本研究提出了一种基于光滑景观的预测且稳定的神经网络模型解释方法，通过批量学习噪声复制品并采用 L1 规范化方法对显著性地图进行训练，使模型学习得到局部光滑模型解释，有效地找出与预测结果相关的输入要素并且在对抗样本测试中表现优异。

Mar, 2021

透过损失函数几何理解对抗鲁棒性

本研究探索了使用对抗训练数据增强作为显式正则化技术的后果，发现这种经常使用的对抗增强技术实际上并没有导致更平的损失平面，需要重新思考对抗训练泛化以及泛化和损失平面几何之间的关系。

Jul, 2019

准确性和鲁棒性是否相关？

通过利用深度卷积神经网络生成对抗性样本，然后比较不同的生成技术在产生图像质量和测试机器学习模型鲁棒性方面的差异，最后在跨模型对抗迁移上进行了大规模实验，研究结果表明对抗性样本在相似的网络拓扑间是可传递的，并且更好的机器学习模型更不容易受到对抗性样本的攻击。

Oct, 2016

物理启发的机器学习模型可解释性

通过利用物理学中的能量景观方法，在机器学习模型中识别有意义的特征来解释模型决策，为使机器学习在医学、网络安全、自动驾驶等领域得到广泛采用提供了一种新途径。

Apr, 2023

对抗性鲁棒性和显著性图解释性之间的联系

本文研究神经网络的对抗漏洞，证明模型对抗攻击的鲁棒性与显著图的对齐程度正相关，使用局部 Lipschitz 正则化训练模型进行实验并分析神经网络的非线性特性对此关系的影响。

May, 2019

稳健性分析解释的评估和方法

本文提出一种基于鲁棒性分析的特征解释新的评估标准，通过针对我们提出的评估标准进行优化，获得了松散且必要的解释和可以将当前预测移动到目标类的特征集。我们通过多领域实验和用户研究验证了我们评估标准和解释的有用性。

May, 2020

使用输入 - 梯度空间对齐进行属性鲁棒性训练

本研究提出了一种训练方法（ART），能够减小图像空间相关性对模型解释鲁棒性的影响，并在多个标准数据集上显著提高了解释鲁棒性，并且在弱监督目标定位任务上实现了新的最佳性能。

Nov, 2019

关于可解释性方法的鲁棒性

我们认为解释的稳健性 —— 也就是说，类似的输入应该产生类似的解释 —— 是可解释性的关键因素。我们引入了度量稳健性的指标，并证明了目前的方法在这些指标下表现不佳。最后，我们提出了如何对现有的解释方法强制实施稳健性的方法。

Jun, 2018

从输入空间决策面视角解读对抗性鲁棒性

本文研究神经网络广义化的一个假说，指出参数空间的损失曲面与广义化并没有明显关系，而在对抗特性下，决策面在输入空间的几何性质与对抗稳健性相关，进而提出了一个对抗稳健性指标和相应的对抗训练方法，可提高神经网络对各种对抗攻击的稳健性，无需对抗性训练。

Sep, 2018

弱学习器解释的组合以提高随机森林的解释和鲁棒性

通过组合弱学习者解释的鉴别平均值，可以提高集成方法中解释的鲁棒性。该方法利用后续的 SHAP 方法和随机森林集成进行实施和测试，并取得了成功的结果。通过定量测量获得的改进，并提供了一些关于集成方法中可解释性鲁棒性的见解。

Feb, 2024