通过提出综合强健的(HR)训练程序,理论和实验证明了其在对抗错误损失方面具有 SOTA 性能,并克服了在敌对训练中普遍存在的过度拟合问题。
Mar, 2023
该研究论文系统地回顾了针对深度学习模型的对抗训练在对抗鲁棒性方面的最新进展,并从三个视角讨论了对抗训练中的泛化问题,同时指出了尚未完全解决的挑战并提出潜在的未来研究方向。
Feb, 2021
本文通过实验研究快速对抗训练的行为并显示其成功的关键在于从过度拟合弱攻击中恢复。我们进一步扩展了这一发现以改善快速对抗训练,展示了与强对抗训练相比更优异的鲁棒性准确性以及更短的训练时间。
Jun, 2020
为了提高深度学习模型在实际应用中对小型对抗扰动的抵抗力和非恶意输入的准确性,我们考虑了一些集成方法,关键洞见在于训练模型以抵御小型攻击的模型在集成时可以承受更大的攻击,并且可以通过这个概念来优化自然准确性。我们考虑了两种方案,一种是从几个随机初始化的强韧模型中组合预测,另一种则是将强韧模型和标准模型的特征进行融合。
Feb, 2020
对抗性示例的存在揭示了深度神经网络的基本弱点。我们的主要贡献是一种通用方法,使分类器具有显着的鲁棒性,而其自然准确性的降低仅仅是微小或可忽略的。
Oct, 2023
本文介绍了一种通过强制表示不变性来提高深度神经网络对抗攻击鲁棒性的方法,并比较其与其他标准对抗训练方法的可行性。
Jan, 2018
本文提出了一种简单而有效的基于迁移学习的对抗性训练策略,该策略将对抗样本的负面影响与模型的标准性能分离开来,引入了一种训练友好的对抗攻击算法,同时保持了模型对干净数据的标准性能,从而提高了模型的鲁棒性。
Apr, 2022
本文研究了对抗训练在提高图像分类器对白盒攻击的鲁棒性中的有效性,以及在黑盒攻击下的细微差别,并定义了鲁棒性增益的度量指标来衡量其效果。研究表明,尽管对抗训练是提高白盒场景下的鲁棒性的有效方法,但对于更现实的基于决策的黑盒攻击,则可能无法提供如此良好的鲁棒性增益。此外,即使是最小的扰动白盒攻击也可以比常规攻击更快地针对对抗训练过的神经网络收敛。
Jul, 2021
通过对抗训练,可以增加高风险环境下 AI 安全性,本文以安全语言生成任务为测试,使用一系列对抗训练技术来寻找并消除分类器中的错误,提高输出的鲁棒性和可靠性。
May, 2022
综述了最近几年针对 NLP 中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战,提出了一种新的分类方法,介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用,并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。
Mar, 2022