May, 2024

面向有效训练与评估的鲁棒模型:相对于 $l_0$ 有界对抗扰动

TL;DR研究了 $l_0$ 范数约束下的稀疏对抗扰动,并提出了一种名为 sparse-PGD 的白盒 PGD 攻击方法来有效高效地生成这种扰动。此外,将 sparse-PGD 与黑盒攻击相结合,全面可靠地评估模型对 $l_0$ 约束下的对抗扰动的鲁棒性,并且 sparse-PGD 的高效性使得我们能够进行对抗性训练以构建对稀疏扰动具有鲁棒性的模型。大量实验证明,我们提出的攻击算法在不同场景下表现出很强的性能。更重要的是,与其他鲁棒模型相比,我们的对抗训练模型展示了对各种稀疏攻击的最新鲁棒性。代码可在此 https URL 找到。