评估对抗鲁棒性
本文探讨了 13 种已在相关会议上发表的对抗性防御方法对抗自适应攻击方法的实验结果,发现这些方法在实际运用中并不完善,因此提出了一种可行的自适应攻击方法,希望能够为研究更为健壮的防御模型提供指导。
Feb, 2020
本研究旨在建立一个全面、严谨、连贯的标准来评估对抗性鲁棒性,通过两个鲁棒性曲线作为公正的评估标准来进行大规模实验,全面掌握攻击与防御方法的表现并得出重要结论和未来研究的启示。
Dec, 2019
本文研究了针对对抗性样本的最新的防御方法和评估对抗性鲁棒性的方法,提出了 “对抗风险” 作为实现模型鲁棒性的目标,并将常用的攻击和评估度量框架化为真正的对抗风险的可行替代目标,指出模型可能会优化该替代目标而不是对抗风险,发展了识别混淆模型和设计透明模型的工具和启发式方法,并通过重新调整梯度自由优化技术为对抗攻击来证明这在实践中是一个重大问题,这被用于将几个最近提出的防御的准确性降低到接近零。我们希望我们的公式和结果能够帮助研究者开发更强大的防御措施。
Feb, 2018
我们对自适应防御策略进行了分类并评估了最新的代表性方法,结果表明在图像分类中这些自适应防御策略没有明显的提高静态防御的水平,同时增加了推理计算。然而,我们仍相信自适应的防御策略是一个有前途的研究方向,并提出了具体的研究建议和评估步骤扩展了 Carlini 等人的清单。
Feb, 2022
本文提出一种名为自适应自动攻击 (Adaptive Auto Attack) 的对抗攻击防御评估方法,旨在提高测试时训练的效率和可靠性,通过自适应的初始化和在线统计抛弃策略,使其消耗远少于现有方法的迭代数,并在广泛使用的防御模型上表现出更低的鲁棒性。
Mar, 2022
机器学习系统中的对抗现象给实际应用带来了严重安全威胁,本调查旨在从统一的视角对现有的防御机制进行系统回顾,通过将机器学习系统划分为预训练、训练、后训练、部署和推断等五个阶段,提出明确的分类法,以分析各个防御机制的机制、联系和差异,并激发未来研究开发更先进、全面的防御机制。
Dec, 2023
该研究提出了一种基于梯度的迭代攻击方法来评估在语义图像分割领域中防御对抗扰动的模型的鲁棒性,并发现只有使用对抗样本进行训练才能获得鲁棒性,并分析了鲁棒性和准确性之间的权衡。
Jun, 2023
该研究提出了一个确定深度学习模型标签更改是否合理的框架,并且定义了一个自适应的鲁棒性损失,使用导出的经验公式,开发了相应的数据增强框架和评估方法,证明了其对确定性标签下的一阶最近邻分类的维持一致性,并提供了实证评估结果。
Jun, 2021