本文提出 Dirichlet Neighborhood Ensemble (DNE) 方法,用于训练 Robust 模型以防御替换攻击,通过抽样 embedding 向量形成虚拟句子,并在训练集上增加确保模型在干净的原始数据上保持良好性能,实验证明该方法在不同网络架构和多个数据集上均明显优于其他最近提出的防御方法。
Jun, 2020
本文探讨多种防御手段组成的强防御系统在防御神经网络对抗性样本方面的效果,研究表明仅靠多种弱防御手段的组合并不能提供强大的对抗性样本防御能力。
Jun, 2017
本研究通过多个神经网络的损失函数不相关来提高其对抗攻击的鲁棒性,提出了一种叫做多样化训练的方法,并发现该方法能够显著增强集合的对抗防御能力。
Jan, 2019
采用集成方法作为防御策略可增强神经网络在 MNIST 和 CIFAR-10 数据集中对于对抗扰动的鲁棒性。
Sep, 2017
本文提出了一种针对图像分类器集合的迭代式对抗攻击方法,通过此方法,在 CAAD 2018 针对性对抗攻击竞赛中获得第五名,该方法提高了黑匣子对抗攻击的成功率。
Nov, 2018
该研究论文探讨了对抗性样本及训练,以及如何生成更强的对抗性样本以提高鲁棒性,介绍了集成对抗性训练技术,并表明在 ImageNet 数据集上应用该技术可以显著提高模型的鲁棒性。
May, 2017
本文研究了利用多样的专业 CNNs 集成对黑盒对抗实例检测的影响,并加强白盒对抗攻击的生成,证明了不同专业集成的多样性如何减轻黑盒和白盒对抗示例的风险,并通过 MNIST 和 CIFAR-10 等实验证明了使用该集成可以检测大部分已知的黑盒对抗实例,从而显著降低敌人的风险率,但会在一定程度上增加干净样本的风险率。此外,相对于普通 CNN 和普通 CNN 集成,我们展示了集成生成白盒攻击的成功率显著下降,突显了集成中多样性对于开发更健壮模型的有益作用。
May, 2020
提出了一种新的集成方法,用于检测和分类最新攻击算法生成的对抗样本,包括 DeepFool 和 C&W,该方法通过训练集成成员对随机良性样本的分类误差较低同时在训练分布之外的样本上最小化一致性来工作。结果表明该方法能够抵抗白盒和黑盒攻击,并且在 MNIST 数据集上表现良好。
Dec, 2017
本文提出了一种基于实践观察的新的防御方法,旨在强化深度神经网络的结构,提高其预测稳定性,从而更难受到针对性攻击,并在多种攻击实验中证明了该方法的有效性,相比其他防御方法具有更好的表现,而且在训练过程中的开销几乎可以忽略不计。
Jul, 2017
本文提出了 X-Ensemble 模型,采取基于梯度敏感度分析的 DNN 解释器并加以应用于混合攻击检测和修正。使用随机森林模型将多个子探测器组合到一起,以强化对对抗混合攻击的检测。在多种攻击类型和不同场景的实验中,证明了 X-Ensemble 比竞争基线方法更具优势。
Apr, 2023