通过同义词编码的自然语言对抗防御

Sep, 2019

通过同义词编码的自然语言对抗防御

Natural Language Adversarial Defense through Synonym Encoding

Xiaosen Wang, Hao Jin, Yichen Yang, Kun He

TL;DR该研究提出了一种名为同义词编码方法（SEM）的深度学习模型对抗防御方法，该方法可以有效地防御基于同义词替换的攻击，并且可以轻松高效地扩展到大型模型和大型数据集中。

Abstract

In the area of natural language processing, deep learning models are recently known to be vulnerable to various types of adversarial perturbations, but relatively few works are done on the defense side. Especiall

natural language processing deep learning adversarial defense synonym substitution sem

发现论文，激发创造

通过随机替换编码技术防御词级对抗攻击

本文研究深度神经网络在自然语言处理任务中遭受对抗攻击的问题，并提出一种名为随机替换编码（Random Substitution Encoding，RSE）的新型防御框架，该框架可以有效保护文本分类任务免受单词级别对抗攻击。

May, 2020

文本对抗攻击中的语义保护

通过介绍 Semantics-Preserving-Encoder (SPE), 提出了一种解决预先训练的文本编码器中存在的问题以及提高对抗性攻击例子质量的简单，全监督的句子嵌入技术，结果表明 SPE 显著提高了对抗性攻击的质量。

Nov, 2022

SemAttack: 基于不同语义空间的自然文本攻击

提出了一种有效的 SemAttack 框架，在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本，可针对包括大规模 LM 和防御策略在内的对抗方法，适用于不同语言的对抗生成，而人评结果表明生成出的对抗文本自然，几乎不影响人类的表现。

May, 2022

针对同义词替换的文本转 SQL 模型健壮性研究

本文研究了文本到 SQL 模型对近义词替换的鲁棒性，并引入了一个名为 Spider-Syn 的基于现实问题重新矫正版的数据集，分为两类鲁棒性改善方法：一类依靠修改模型输入来利用附加同义词注释，另一类基于攻击性训练。我们证明这两类方法都显著优于没有防御的对应基线模型，且第一类方法更有效。

Jun, 2021

会话蕴含任务的对抗攻击与防御

在这项研究中，我们将对抗性攻击结果视为模型的一个新（未见过的）领域，并将防御问题转化为如何提高模型在这个新领域的鲁棒性。我们关注会话蕴含任务，其中多轮自然语言对话是前提，通过对变换模型进行微调以预测给定对话的假设是真还是假。我们采用同义词交换作为攻击方法，并实施了一些微调策略，并提出了嵌入扰动损失作为提高模型鲁棒性的方法。最后，通过讨论自然语言处理中现实世界的对抗攻击，展示了我们工作的重要性。

May, 2024

针对基于同义词替换的文本攻击的快速梯度投影方法中的对抗训练

本文提出了一种快速文本对抗攻击方法，称为基于同义词替换的快速梯度投影方法（FGPM），并将其与对抗性训练相结合，提出了一种文本防御方法，称为增强型 Logit 配对的对抗性训练（ATFL），实验证明，ATFL 可以显著提高模型的稳健性并阻止对抗性示例的可转移性。

Aug, 2020

BERT 强健性的案例！反驳基于同义词的文本分类对抗样本

本文调查了针对 BERT 的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现 96% 至 99% 的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT 比攻击研究所说的要更加健壮。

Sep, 2021

语义保持的对抗性代码理解

本文提出一种语义保持的对抗代码嵌入方法，用于提高预训练语言模型在代码理解中的性能和防御对抗攻击。实验证明该方法可以在不降低性能的情况下提高模型的稳定性。

Sep, 2022

寻找有效的防御者：针对对抗性词语替换的防御基准测试

本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究，比较并提出了各种防御方法，最终提出了一种有效的方法提高神经文本分类器的鲁棒性，并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。

Aug, 2021

针对神经机器翻译的定向对抗攻击

本文介绍了一种新的对神经机器翻译（NMT）模型的有针对性对抗攻击方法，目的是插入一个预定义的关键词到对抗性翻译中，同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题，并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明，相比于 Seq2Sick 方法，本攻击方法在成功率和翻译质量降低方面表现更好，攻击成功率超过 75％，同时原始句子和扰动后的句子之间的相似性得以保持。

Mar, 2023