本文提出了一种新颖的攻击模型,采用语义元替换和粒子群优化算法处理词级攻击中不适当的搜索空间缩减方法和低效的优化算法,实验结果表明该模型相对于基线方法在攻击成功率方面显著提高,可生成更高质量的对抗样本并通过对抗训练提高受害模型的鲁棒性。
Oct, 2019
针对预训练语言模型容易受到对抗攻击的问题,提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强,能够有效地弥补其他防御方法的不足,同时本研究也揭示了文本对抗攻击的本质,并提出了应该加强对谨慎攻击方法的研究。
Jul, 2022
提出了一种有效的 SemAttack 框架,在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本,可针对包括大规模 LM 和防御策略在内的对抗方法,适用于不同语言的对抗生成,而人评结果表明生成出的对抗文本自然,几乎不影响人类的表现。
May, 2022
提出了一种通过多种敌对扰动方法修复文本,使神经网络能够正确分类的方法,经实验证明,该方法可对约 80%的文本进行修复,并且取决于使用的扰动方法,平均修复一条文本的时间仅需一秒。
Dec, 2021
本文介绍了一种有效的方法来生成文本对抗样本,证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本,可以识别用于分类的文本信息,基于这些信息,设计了三种扰动策略(插入、修改、删除)来生成对抗样本。实验表明,基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器,并且可以扰动到任意的分类类别而不影响其实用性,同时所引入的扰动难以被发现。
Apr, 2017
本论文提出了一个名为 PLAT 的短语级文本对抗攻击方法,通过短语级扰动来生成对抗性样本,并结合上下文化生成方式来保持文本流畅性和句法通顺性。同时,作者还开发了一个基于类别似然的标签保持过滤器,来排除潜在导致文本分类错误的扰动。实验证明,PLAT 不仅有着比强基线更优越的攻击效果,同时还具有更好的标签一致性。
该研究提出了一种决策式的攻击策略,利用基于人口统计的优化算法,通过仅观察目标模型预测的前一标签,制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比,在高度限制的情况下,成功率更高,被替换单词比例更低。
Dec, 2020
本文研究了利用目标模型输出和数据对攻击率和查询率的影响,并表明两者都可以提高,同时附加查询的开销有限。
Apr, 2021
本文提出了一种使用 deobfuscation 和 CW2V 嵌入的强健分类管道,用于检测 Facebook 帖子是否请求参与(例如点赞)。在针对有意和无意的对抗文本扰动方面,CW2V 嵌入的强健性优于基于字符 ngram 的嵌入,其分类结果在扰动下的 AUC 从 0.70 降至 0.67,而字符 ngram 嵌入的分类结果从 0.76 降至 0.64。
Feb, 2022
本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务,并提出了一种攻击策略,通过考虑原始单词及其周围情境的信息来找到候选单词,并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比,我们能够生成高质量的对抗性示例,成功率和单词扰动百分比都有显著提高。