利用雅可比正则化提高 DNN 对对抗攻击的鲁棒性
本文提出 Jacobian Adversarially Regularized Networks(JARN)方法,训练图像分类器,通过对抗正则化模型来优化分类器的 Jacobian,从而提高模型的鲁棒性。与标准模型相比,使用 JARN 训练的图像分类器在 MNIST,SVHN 和 CIFAR-10 数据集上表现出更优的鲁棒性,揭示了一种不使用对抗性训练示例提高模型鲁棒性的新方法。
Dec, 2019
本文提出了一种基于 Jacobian 规范和选择性输入梯度正则化(J-SIGR)的新方法,从 Jacobian 规范的线性化健壮性建议,并控制基于扰动的显著性图以模仿模型的可解释预测,这既实现了改进的防御又实现了 DNN 的高可解释性。
Jul, 2022
本文研究了深度神经网络的输入梯度正则化,并证明了这种正则化可以导致泛化证明和改进的对抗性稳健性。通过将对抗训练与 Lipschitz 正则化相结合,可以使模型更加稳健,并且可以使用图像的梯度范数进行攻击检测。
Aug, 2018
本研究评估了不同防御机制对神经网络的有效性,发现使用输入梯度规则化训练的神经网络具有抵御小幅度扰动的鲁棒性,并且可以提高预测的可解释性。同时,对这种神经网络产生的误分类可以解释,并进一步讨论了深度神经网络中解释性和鲁棒性之间的关系。
Nov, 2017
本文提出了一种名为 “deep defense” 的训练方法来解决深度神经网络易受到对抗样本攻击的问题,通过将对抗扰动的正则化器与分类目标相结合,得到的模型能够直接且准确地学习抵御潜在的攻击,实验证明该方法在不同数据集上对比对抗 / Parseval 正则化方法有更好的效果。
Feb, 2018
本文研究了神经网络建模的正则化视角,通过将模型向分类决策边界的平滑变化进行防御,使其尽可能不改变预测结果,但会导致预测结果的置信度下降,这种正则化方法要避免性能下降。
Nov, 2020
本文介绍了一种新型的正则化方法,该正则化方法鼓励在训练数据附近的损失行为呈线性,从而惩罚梯度混淆并鼓励鲁棒性。通过在 CIFAR-10 和 ImageNet 上的大量实验,我们展示了使用我们的正则化方法训练的模型避免了梯度混淆,并且比对抗训练能够更快地训练。使用这种正则化方法,我们在 ImageNet 上取得了 47% 的对抗准确率和 8/255 的和 CIFAR-10 同样的表现。
Jul, 2019
通过分析正常和对抗攻击样本的深度神经网络表示之间的差异,研究了对抗攻击的鲁棒性和现有防御机制的普适性,并揭示了 L2 和 Linfinity 范数之间的显著差异。
Aug, 2023