通过迪利克雷邻域集成对抗 NLP 攻击的防御

Jun, 2020

通过迪利克雷邻域集成对抗 NLP 攻击的防御

Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood Ensemble

Yi Zhou, Xiaoqing Zheng, Cho-Jui Hsieh, Kai-wei Chang, Xuanjing Huang

TL;DR本文提出 Dirichlet Neighborhood Ensemble (DNE) 方法，用于训练 Robust 模型以防御替换攻击，通过抽样 embedding 向量形成虚拟句子，并在训练集上增加确保模型在干净的原始数据上保持良好性能，实验证明该方法在不同网络架构和多个数据集上均明显优于其他最近提出的防御方法。

Abstract

Despite neural networks have achieved prominent performance on many natural language processing (nlp) tasks, they are vulnerable to adversarial e

neural networks adversarial examples dirichlet neighborhood ensemble nlp defense methods

发现论文，激发创造

深度 K 最近邻模型的鲁棒性

本文探讨了一种结合了 k 最近邻算法和深度学习的模型 - Deep k-Nearest Neighbor（DkNN）来提高模型的抵抗 Adversarial Example 威胁，同时提出了一种基于梯度下降的攻击方法，能够有效地攻击 DkNN 模型。

Mar, 2019

通过负相关模型集成来防御对抗样本

该论文提出一个名为 NCEn 的新的集成防御方法，通过将每个成员的梯度方向和梯度幅度负相关地引入，同时减少它们之间对抗性示例的可传递性，以提高集合的对抗鲁棒性。

Jun, 2022

通过多样化训练提高集合模型的对抗鲁棒性

本研究通过多个神经网络的损失函数不相关来提高其对抗攻击的鲁棒性，提出了一种叫做多样化训练的方法，并发现该方法能够显著增强集合的对抗防御能力。

Jan, 2019

自然语言处理中对抗性防御和鲁棒性的调查

综述了最近几年针对 NLP 中深度神经网络面对对抗干扰的鲁棒性不足和易受攻击的挑战，提出了一种新的分类方法，介绍了不同的对抗防御方法和其在训练中作为正则化机制的应用，并指出了深度神经网络的脆弱性和对其进行防御面临的挑战。

Mar, 2022

高效的对抗攻击防御

本文提出了一种基于实践观察的新的防御方法，旨在强化深度神经网络的结构，提高其预测稳定性，从而更难受到针对性攻击，并在多种攻击实验中证明了该方法的有效性，相比其他防御方法具有更好的表现，而且在训练过程中的开销几乎可以忽略不计。

Jul, 2017

一种基于几何形态的攻击方法，用于生成自然语言对抗样本

本文介绍了一种用于生成自然语言对抗性样本的几何灵感攻击方法，该攻击通过迭代逼近深度神经网络（DNNs）的决策边界生成对抗性样本，并实验证明该攻击方法可以快速欺骗自然语言模型，并表明对抗训练可以提高模型对我们的攻击方法的鲁棒性。

Oct, 2020

重新构建和集成：探索防御文本对抗的方法

提出 “Rebuild and Ensemble Framework” 方法用于针对自然语言处理任务中的对抗攻击，通过重新构建机制训练鲁棒性模型，并在推理期间集成已重新构建的文本以实现对抗性防御。实验证明，该方法能够提高在目前强对抗攻击方法下的准确性。

Mar, 2022

使用 K 最近邻防御对抗性例子

提出了一个基于神经网络中间层激活的 k - 最近邻（kNN）的防御机制来对抗对手样本，该方案在 MNIST 和 CIFAR-10 上的 l2 扰动上超过了最先进的防御措施，我们的模型在 MNIST 上是 3.07，CIFAR-10 为 2.3。此外，我们提出了一种简单的可辨认下界，该下界是在 Lipschitz 网络学习的表示的基础上，用 1-NN 实现的，我们的模型提供与其他具有类似准确度的 MNIST 的方案相当的平均下界。

Jun, 2019

深度神经网络对抗扰动的防御方法：集成学习

采用集成方法作为防御策略可增强神经网络在 MNIST 和 CIFAR-10 数据集中对于对抗扰动的鲁棒性。

Sep, 2017

寻找有效的防御者：针对对抗性词语替换的防御基准测试

本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究，比较并提出了各种防御方法，最终提出了一种有效的方法提高神经文本分类器的鲁棒性，并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。

Aug, 2021