该研究提出了一种名为同义词编码方法(SEM)的深度学习模型对抗防御方法,该方法可以有效地防御基于同义词替换的攻击,并且可以轻松高效地扩展到大型模型和大型数据集中。
Sep, 2019
本文提出一种语义保持的对抗代码嵌入方法,用于提高预训练语言模型在代码理解中的性能和防御对抗攻击。实验证明该方法可以在不降低性能的情况下提高模型的稳定性。
Sep, 2022
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021
该论文针对自然语言处理(NLP)中的对抗训练的方法应用于词嵌入空间进行改进,使其具有可解释性,从而实现在任务执行时的性能提升。
May, 2018
提出了一种有效的 SemAttack 框架,在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本,可针对包括大规模 LM 和防御策略在内的对抗方法,适用于不同语言的对抗生成,而人评结果表明生成出的对抗文本自然,几乎不影响人类的表现。
May, 2022
在本文中,通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索,利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析,发现 PWWS 攻击是最强大的对手,在多个评估场景中始终优于其他方法,从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验,评估了这些攻击的性能,并发现 PWWS 攻击优于其他方法,具有更低的运行时间、更高的准确性和更好的语义相似度得分,这是这篇论文的关键见解。
Apr, 2024
本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务,并提出了一种攻击策略,通过考虑原始单词及其周围情境的信息来找到候选单词,并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比,我们能够生成高质量的对抗性示例,成功率和单词扰动百分比都有显著提高。
Dec, 2020
本研究提出了一种增强型的文本对抗攻击方法,称为 Saliency Attention and Semantic Similarity driven adversarial Perturbation (SASSP)。该方法通过整合显著性、注意力和语义相似性,提高了上下文扰动的效果。实验证明,SASSP 不仅生成高度语义保真的对抗样本,而且有效地欺骗了最先进的自然语言处理模型。
Jun, 2024
通过强化学习算法训练的编码器 - 解码器重述模型生成多样化的对抗性示例,在两个文本分类数据集上实验证明该模型的成功率高于原始的重述模型,并且总体上比其他竞争性攻击更有效,同时讨论了关键设计选择如何影响生成的示例以及该方法的优势和弱点。
May, 2024
通过分析最先进程序的同义词替换攻击,本文提出了成功自然语言攻击的定义 —— 伪造的文本必须欺骗模型、遵守一些语言约束,并发现其扰动往往不能保持语义,而人类调查表明交换词汇的嵌入和原始 / 扰动句子的句子编码之间的最小余弦相似性应显著提高以保持有效的语义性和语法性,一旦应用了相应的限制成功率会下降 70%。
Apr, 2020