通过同义词编码的自然语言对抗防御
本文研究深度神经网络在自然语言处理任务中遭受对抗攻击的问题,并提出一种名为随机替换编码(Random Substitution Encoding,RSE)的新型防御框架,该框架可以有效保护文本分类任务免受单词级别对抗攻击。
May, 2020
通过介绍 Semantics-Preserving-Encoder (SPE), 提出了一种解决预先训练的文本编码器中存在的问题以及提高对抗性攻击例子质量的简单,全监督的句子嵌入技术,结果表明 SPE 显著提高了对抗性攻击的质量。
Nov, 2022
提出了一种有效的 SemAttack 框架,在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本,可针对包括大规模 LM 和防御策略在内的对抗方法,适用于不同语言的对抗生成,而人评结果表明生成出的对抗文本自然,几乎不影响人类的表现。
May, 2022
本文研究了文本到 SQL 模型对近义词替换的鲁棒性,并引入了一个名为 Spider-Syn 的基于现实问题重新矫正版的数据集,分为两类鲁棒性改善方法:一类依靠修改模型输入来利用附加同义词注释,另一类基于攻击性训练。我们证明这两类方法都显著优于没有防御的对应基线模型,且第一类方法更有效。
Jun, 2021
在这项研究中,我们将对抗性攻击结果视为模型的一个新(未见过的)领域,并将防御问题转化为如何提高模型在这个新领域的鲁棒性。我们关注会话蕴含任务,其中多轮自然语言对话是前提,通过对变换模型进行微调以预测给定对话的假设是真还是假。我们采用同义词交换作为攻击方法,并实施了一些微调策略,并提出了嵌入扰动损失作为提高模型鲁棒性的方法。最后,通过讨论自然语言处理中现实世界的对抗攻击,展示了我们工作的重要性。
May, 2024
本文提出了一种快速文本对抗攻击方法,称为基于同义词替换的快速梯度投影方法(FGPM),并将其与对抗性训练相结合,提出了一种文本防御方法,称为增强型 Logit 配对的对抗性训练(ATFL),实验证明,ATFL 可以显著提高模型的稳健性并阻止对抗性示例的可转移性。
Aug, 2020
本文调查了针对 BERT 的四种基于词汇替换的攻击方法,结合人类评估和概率分析,发现 96% 至 99% 的攻击并不能维护语义,其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案,以防止许多对抗性攻击。最终,通过对词汇更换的约束条件设定更合理的阈值,作者得出结论:BERT 比攻击研究所说的要更加健壮。
Sep, 2021
本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究,比较并提出了各种防御方法,最终提出了一种有效的方法提高神经文本分类器的鲁棒性,并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。
Aug, 2021
本文介绍了一种新的对神经机器翻译(NMT)模型的有针对性对抗攻击方法,目的是插入一个预定义的关键词到对抗性翻译中,同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题,并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明,相比于 Seq2Sick 方法,本攻击方法在成功率和翻译质量降低方面表现更好,攻击成功率超过 75%,同时原始句子和扰动后的句子之间的相似性得以保持。
Mar, 2023