多攻击：多个图像 $+$ 相同的对抗性攻击 $ o$ 多个目标标签

Aug, 2023

多攻击：多个图像 $+$ 相同的对抗性攻击 $ o$ 多个目标标签

Multi-attacks: Many images $+$ the same adversarial attack $\to$ many target labels

Stanislav Fort

TL;DR我们展示了一种能够轻松设计出单个对抗性扰动 P，将 n 个图像 X1，X2，...，Xn 的类别从它们的原始未扰动类别 c1，c2，...，cn，变为所需（不一定相同的）类别 c*1，c*2，...，c*n 的技术。这种技术我们称之为 “多重攻击”。通过对像素空间中特定图像周围具有高类别置信度的区域数量的估计，我们表明在不同条件下（如图像分辨率），我们可以实现的最大 n 约为 10^（100）数量级，这给全面的防御策略带来了重大问题。我们展示了这个结果的几个直接推论：改变结果类别的对抗攻击可以通过其强度来实现，并且与尺度无关的对抗性例子。为了证明像素空间中类别决策边界的冗余性和丰富性，我们寻找了以特定类别追踪图像并组成单词的二维切片。我们还证明了集成降低了对多重攻击的易感性，而对随机标签训练的分类器则更容易受到攻击。我们的代码可在 GitHub 上获取。

Abstract

We show that we can easily design a single adversarial perturbation $P$ that changes the class of $n$ images $X_1,X_2,\dots,X_n$ from their original, unperturbed classes $c_1, c_2,\dots,c_n$ to desired (not necessarily all the same) classes $c^*_1,c^*_2,\dots,c^*_n$ for up to hundreds

adversarial perturbation multi-attacks classifiers exhaustive defense strategies adversarial examples

发现论文，激发创造

多标签对抗扰动

研究多标签学习模型的脆弱性和准确性，提出通用的攻击框架来攻击深度神经网络，并设计两个特定方法来生成有针对性的多标签扰动来检测模型的脆弱性，并提出了一种潜在的防御策略来增强多标签深度学习模型的可解释性和鲁棒性。

Jan, 2019

通用对抗训练

本文研究的是生成通用对抗扰动和抵御这类扰动的有效方法，提出了一种简单的基于优化的通用攻击方法来降低各种网络的 ImageNet 上的准确性，并提出了一种通用对抗性训练来生成抗干扰的分类器。

Nov, 2018

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部 Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021

一种计算类普遍对抗扰动的方法

该论文提出了一种基于线性函数和神经网络参数计算类特定通用对抗扰动的算法，能使大部分相同类别的图像被错误分类，同时没有训练数据和超参数，并在 ImageNet 上获得了 34% 到 51% 的欺骗率并跨模型传递。研究表明，标准和针对对抗性训练模型所学习的决策边界特征也会影响通用对抗扰动。

Dec, 2019

多扰动下的对抗训练和鲁棒性

针对对抗样本的防御，如对抗训练，通常针对单个干扰类型（例如小的 l∞- 噪声），对于其它类型的干扰，这些防御没有保障，甚至会增加模型的脆弱性。我们的目标是了解这种鲁棒性取舍背后的原因，并训练同时对多种扰动类型具有鲁棒性的模型。

Apr, 2019

猜测聪明：有偏采样用于高效黑盒对抗攻击

本文讨论了黑盒子设置下图像分类的对抗性样本问题，并针对 Boundary Attacks 提出了一种基于偏差抽样的新方法，该方法通过图像频率、区域掩码和代理梯度三种偏差来提高攻击效率，并在 ImageNet 数据集上进行了深入评估。最终表明，这些偏差的结合能够显著提高黑盒攻击的效率，并在对 Google Cloud Vision API、以及强防御模型的攻击中都表现出色。

Dec, 2018

针对多个分类器的鲁棒性攻击

设计最优敌对噪声算法是一项具有挑战性的任务，本文将其表述为学习器和对手之间的一种两方零和博弈，需要利用最佳响应神经网络生成随机化攻击来计算纳什均衡，本文在多个分类任务中演示了该方法的实际有效性。

Jun, 2019

多扰动模型联合的对抗鲁棒性

本研究提出了一种基于 PGD-based 的方法，该方法融合多种扰动模型来提高深度学习系统的鲁棒性，并在 MNIST 和 CIFAR10 数据集上进行了测试。

Sep, 2019

单字更改足矣：为文本分类器设计攻击与防御

本文研究文本分类中单词扰动漏洞的问题，并提出了评估分类器鲁棒性、利用单词扰动漏洞的 SP-Attack 攻击方法以及通过数据增强提高分类器鲁棒性的 SP-Defense 方法。实验结果表明 SP-Defense 能将攻击成功率下降 30.4% 和 21.2%，而提高鲁棒性达到 14.6% 和 13.9%。同时，SP-Defense 还能降低多词扰动攻击成功率。

Jan, 2024

使用共享对抗训练来防御通用扰动

本文探讨了对抗性训练的有效性以及在减少通用扰动和提高模型性能之间的平衡问题，并在图像分类和语义分割方面展示了结果。

Dec, 2018

多攻击： 多个图像 $+$ 相同的对抗性攻击 $ o$ 多个目标标签

多攻击：多个图像 $+$ 相同的对抗性攻击 $ o$ 多个目标标签