研究了基于优化问题的对抗攻击,使用双重变量来最小化对抗性噪声与规则化惩罚,针对非光滑 $p$- 范数进行极值点下降攻击,实验表明,比当前最先进的攻击方法在 MNIST、CIFAR-10 和受限制的 ImageNet 数据集上都优异表现。
Jun, 2021
采用梯度逼近的对抗训练方法能够减少建立稳健模型的成本,而对于常见数据集如 MNIST、CIFAR-10 和 CIFAR-100,该方法在训练时间上节省了高达 60% 的时间,并且在模型测试准确性上没有明显损失。
Sep, 2023
本文提出了一种解决最优对抗数据分布的方法 —— 分布式对抗攻击(DAA),通过在潜在数据分布空间上进行优化,使攻击样本具有更好的泛化性,实验表明其在对抗训练的模型上的攻击效果优于其他对抗攻击方法。
Aug, 2018
通过控制连续放松引入的误差,我们改进了投影梯度下降(PGD)对连续放松输入提示的攻击方法,实现了与现有离散优化相同的毁灭性攻击结果,PGD 对 LLMs 的速度比最新的离散优化方法快了一个数量级。
Feb, 2024
该论文提出了一种名为 Diff-PGD 的新框架,用于生成逼真的对抗样本,并通过使用扩散模型引导梯度,确保对抗样本保持靠近原始数据分布同时保持其有效性,证明使用 Diff-PGD 生成的样本具有更好的可转移性和抗净化能力。
May, 2023
本研究介绍了一种新型的对抗性测试方法,称为 MultiTargeted,可以搜索引起神经网络输入错误的边界扰动,相较于其他方法,其需要迭代次数更少,且在 MNIST 和 CIFAR-10 中达到了最佳性能。
Oct, 2019
本文讨论了利用 SegPGD 进行语义分割的有效攻击和防御方法,并提出了一种更有效和高效的对抗训练机制,可以增强基于语义分割的模型的鲁棒性。
Jul, 2022
研究了基于 $l_1$ 投影的梯度下降算法,提出一种自适应算法 $l_1$-APGD 用于攻击和对抗训练,通过 $l_1$-AutoAttack 可以可靠地评估 $l_1$-ball 和 $[0,1]^d$ 威胁模型下的对抗容忍度。
Mar, 2021
该研究利用弯曲正则化方法,将快速梯度符号方法(FGSM)扩展为可实现 adversarial robustness,并比 adversarial projected gradient decent 攻击方法(PGD)具有更高的训练效率。在 MNIST 数据集白盒攻击下,表现与 adv.PGD 相当,在 CIFAR-10 数据集转移攻击上表现更好。
Nov, 2020
该论文通过理论分析和实验证明了前人工作中原梯度失败的原因,并提出了一种新的原梯度下降算法,该算法在各种情况下优于传统的投影梯度下降算法,并且不增加任何计算开销。
Dec, 2023