基于预测 - 修正的对抗攻击
本文提出了一种名为 “deep defense” 的训练方法来解决深度神经网络易受到对抗样本攻击的问题,通过将对抗扰动的正则化器与分类目标相结合,得到的模型能够直接且准确地学习抵御潜在的攻击,实验证明该方法在不同数据集上对比对抗 / Parseval 正则化方法有更好的效果。
Feb, 2018
本文以 Fast Gradient Sign Method 为基础,对面部图像数据集进行扰动,测试不同黑盒攻击算法的鲁棒性,并重点研究修改单个最佳像素或所有像素的攻击方法。研究结果表明,所有像素攻击方法能使分类器置信度平均下降至 84%,且 81.6%的误分类率,但这些图像始终可以被人类识别。该研究可为防御性对抗攻击、自适应噪声降低技术等方面的 DNNs 训练和研究提供宝贵的参考。
Jan, 2020
本文提出 SODEF (一种稳定的神经 ODE),并验证其对抗攻击防御能力,该方法利用 Lyapunov 稳定的平衡点,通过一些正则化方法强制特征点落在该平衡点的邻域内, SODEF 可以应用于任何神经网络的最终回归层,以增强其稳定性。
Oct, 2021
提出一种基于永续度量的方法,通过创造高度扭曲网络特征空间的攻击来达到高度通用的敌对样本,旨在打破相对有限的目前攻击的限制,并可将其通过多个网络扩展到多个任务。
Nov, 2018
本文提出了一种针对图像分类器集合的迭代式对抗攻击方法,通过此方法,在 CAAD 2018 针对性对抗攻击竞赛中获得第五名,该方法提高了黑匣子对抗攻击的成功率。
Nov, 2018
本文提出了一种基于实践观察的新的防御方法,旨在强化深度神经网络的结构,提高其预测稳定性,从而更难受到针对性攻击,并在多种攻击实验中证明了该方法的有效性,相比其他防御方法具有更好的表现,而且在训练过程中的开销几乎可以忽略不计。
Jul, 2017
本文介绍了一种在预测自动驾驶系统的轨迹时防御对抗性攻击的方法,该方法包括设计有效的对抗训练方法和添加特定领域的数据增强来减少在净数据上的性能损失。作者通过验证表明,相较于只使用纯净数据训练的模型,该方法在对抗数据上性能提高了 46%,并只降低了 3%的净数据性能。此外,相较于现有鲁棒方法,该方法在对抗样本上的性能提高了 21%,在干净数据上的性能提高了 9%。通过对规划器的评估,研究了我们的鲁棒模型对下游影响,证明该模型可以显著减少严重事故率(例如碰撞和越野驾驶)。
Jul, 2022
本研究提出了一种检测对抗性样例的方法,通过估计对抗性攻击造成的修改概率来增强隐写分析特征,实验证明该方法可以准确检测对抗性样例,并且没有基于神经网络,而是基于高维人工特征和 FLD (Fisher Linear Discriminant) 系列,因此不能直接进行二次对抗性攻击。
Jun, 2018
通过考虑因果生成过程,我们通过因果关系解释深度神经网络脆弱性的源头,给出了理论结果来回答攻击的目标所在。为了更真实地生成对抗性示例,我们提出了 CADE 框架,可以生成反事实的对抗性示例,并在白盒、基于迁移的以及随机干预攻击等各种攻击场景中表现出竞争力。
Dec, 2023