基于特征扰动的对抗训练防御对抗攻击
将对抗训练应用于ImageNet,并提出了如何将对抗训练成功扩展到大型模型和数据集的建议,发现对抗训练能增加对单步攻击方法的鲁棒性,单步攻击方法比多步攻击方法更难以传递,使其成为发动黑盒攻击的最佳选择。研究还揭示了“标签泄漏”效应,因为对抗样本构建过程使用真实标签,模型可以学习利用构建过程的规律,使经过对抗训练的模型在对抗示例上表现比正常示例更好。
Nov, 2016
该研究论文探讨了对抗性样本及训练,以及如何生成更强的对抗性样本以提高鲁棒性,介绍了集成对抗性训练技术,并表明在ImageNet数据集上应用该技术可以显著提高模型的鲁棒性。
May, 2017
本文提出了一种Bilateral Adversarial Training方法,使用一步定向攻击生成对抗样本来训练一个抗攻击性更强的神经网络,实验结果表明该方法对于对抗性攻击的鲁棒性有显著提升。
Nov, 2018
利用目标样本的样式和内容信息以及其类边界信息创建对抗性扰动,将其应用于多任务目标并进行深度监督,提取多尺度特征知识以创建最大分离对手,随后提出最大间隔对抗训练方法,最小化源图像与其对手之间的距离,并最大化对手和目标图像之间的距离,证明与最先进的防御相比,我们提出的对抗训练方法表现出强大的鲁棒性,对自然出现的损坏和数据分布变化具有良好的泛化能力,并保留了模型在干净样本上的准确性。
Jul, 2020
使用生成模型学习的代理分布来提高深度神经网络的鲁棒性,并提出了一种鲁棒区分方法,证明了采用扩散基生成模型作为代理分布比生成式对抗网络更优越。
Apr, 2021
通过对敌对学习及攻击的深入探究,我们发现在敌对性训练的模型中,用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测,为此我们提出了一种有效的防御方法,是通过制造更加有效的防御扰动方法,利用敌对训练降低了地面真实的局部Lipschitzness,同时攻击所有类别,将误导的预测转换为正确的预测,这种方法在经验实验证明有效。
Jun, 2021
本文提出了三种防御方法来增强对多种攻击类型的鲁棒性,包括自适应防御技术Adaptive AT,课程式防御技术Curriculum AT和将AT与去噪生成对抗网络相结合的生成式防御技术Generative AT,并在UCF101数据集上进行了实验。
Jun, 2022
本文介绍了一种在各种威胁模型下生成鲁棒分类器的方法,该方法利用了随机生成建模的最新进展,并利用条件分布采样。通过在被攻击的图像上添加高斯独立同分布噪声,然后进行预训练扩散过程,该方法表现出了可观的鲁棒性。该鲁棒性在CIFAR-10数据集上经过了广泛的实验验证,表明我们的方法在各种威胁模型下优于主要的防御方法。
Jul, 2022
深度学习算法在高能物理学领域中越来越受到重视,特别是针对飞行物理观测中标签识别任务的,研究者们正致力于提高模型的稳健性并针对异常数据提出对抗性训练策略以提高模型的鲁棒性。
Mar, 2023