基于 BERT 的文本分类对抗样本
本文提出了一种基于生物医学领域同义替换和 BERTMLM 预测的黑盒攻击算法 BBAEG,旨在提高生物医学文本分类的抗干扰性和预测准确性。通过对两个数据集的自动和人工评估,我们证明 BBAEG 相对于以往的工作具有更强的攻击能力和更好的语言流畅性和语义连贯性。
Apr, 2021
通过引入第一个阿拉伯语的词级研究,我们使用基于掩蔽语言建模任务的同义词替换攻击,评估了最先进的文本分类模型对于阿拉伯语中的对抗攻击的鲁棒性,并研究了这些对抗样本的语法和语义相似性、传递性攻击的有效性以及关于 BERT 模型的防御机制的效果。我们发现,相较于其他我们训练的深度神经网络模型(如 WordCNN 和 WordLSTM),经过微调的 BERT 模型对我们的同义词替换攻击更容易受到影响。最后,我们发现经过对抗训练作为初始防御机制后,经过微调的 BERT 模型成功地恢复了至少 2% 的准确率。
Feb, 2024
本文调查了针对 BERT 的四种基于词汇替换的攻击方法,结合人类评估和概率分析,发现 96% 至 99% 的攻击并不能维护语义,其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案,以防止许多对抗性攻击。最终,通过对词汇更换的约束条件设定更合理的阈值,作者得出结论:BERT 比攻击研究所说的要更加健壮。
Sep, 2021
提出了一种基于强化学习的方法,在黑盒设置中生成对抗性示例,能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型,并且生成的对抗示例保留了原始文本的语义。
Sep, 2019
本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务,并提出了一种攻击策略,通过考虑原始单词及其周围情境的信息来找到候选单词,并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比,我们能够生成高质量的对抗性示例,成功率和单词扰动百分比都有显著提高。
Dec, 2020
本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法,其中没有模型信息被公开,攻击者只能查询模型以获得分类器的最终决策,该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。
Aug, 2020
在本文中,通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索,利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析,发现 PWWS 攻击是最强大的对手,在多个评估场景中始终优于其他方法,从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验,评估了这些攻击的性能,并发现 PWWS 攻击优于其他方法,具有更低的运行时间、更高的准确性和更好的语义相似度得分,这是这篇论文的关键见解。
Apr, 2024
提出了一种名为 SSCAE 的自然语言生成器模型,它是一种实用且高效的对抗性攻击模型,能够生成具有语义、句法和上下文感知的自然语言对抗性示例,通过比较实验和参数优化敏感性分析验证了该模型的有效性和优越性。
Mar, 2024
本研究提出了 BeamAttack,这是一种文本攻击算法,利用混合语义空间和改进的 Beam 搜索来制作高质量的对抗攻击示例,可在对模型进行攻击时提高攻击成功率并节省大量查询和时间。
Mar, 2023
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021