Aug, 2023

多攻击: 多个图像 $+$ 相同的对抗性攻击 $ o$ 多个目标标签

TL;DR我们展示了一种能够轻松设计出单个对抗性扰动 P,将 n 个图像 X1,X2,...,Xn 的类别从它们的原始未扰动类别 c1,c2,...,cn,变为所需(不一定相同的)类别 c*1,c*2,...,c*n 的技术。这种技术我们称之为 “多重攻击”。通过对像素空间中特定图像周围具有高类别置信度的区域数量的估计,我们表明在不同条件下(如图像分辨率),我们可以实现的最大 n 约为 10^(100)数量级,这给全面的防御策略带来了重大问题。我们展示了这个结果的几个直接推论:改变结果类别的对抗攻击可以通过其强度来实现,并且与尺度无关的对抗性例子。为了证明像素空间中类别决策边界的冗余性和丰富性,我们寻找了以特定类别追踪图像并组成单词的二维切片。我们还证明了集成降低了对多重攻击的易感性,而对随机标签训练的分类器则更容易受到攻击。我们的代码可在 GitHub 上获取。