一种简单且高效的对抗性词汇替换攻击方法
本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究,比较并提出了各种防御方法,最终提出了一种有效的方法提高神经文本分类器的鲁棒性,并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。
Aug, 2021
该研究提出了一种决策式的攻击策略,利用基于人口统计的优化算法,通过仅观察目标模型预测的前一标签,制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比,在高度限制的情况下,成功率更高,被替换单词比例更低。
Dec, 2020
该研究提出了一种查询效率高的攻击策略来生成文本分类和蕴含任务中的可信对抗性样例,并通过使用注意力机制和局部敏感哈希来减少查询次数。对三个不同的搜索空间使用四种基线进行比较,平均来说我们在所有数据集和目标模型中将查询次数降低了 75%。在受限查询设置中,与以前的攻击相比,我们的攻击成功率更高。
Sep, 2021
本研究介绍了一种称为 A2T 的简单和改进的馅饼对抗训练过程,用于 NLP 模型的训练,可以使用更便宜的对手训练出具有鲁棒性的 NLP 模型,提高 NLP 模型的标准准确性、跨领域泛化性和可解释性。
Sep, 2021
提出了一种新的针对硬标签的黑盒攻击的优化方法,利用经预训练的替代模型指导优化过程,实验证明该方法在不同目标模型架构下显著提高了攻击的查询效率,攻击成功率较基准测试提高了约 5 倍,特别是在 100 和 250 个查询预算下。
Mar, 2024
在本文中,通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索,利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析,发现 PWWS 攻击是最强大的对手,在多个评估场景中始终优于其他方法,从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验,评估了这些攻击的性能,并发现 PWWS 攻击优于其他方法,具有更低的运行时间、更高的准确性和更好的语义相似度得分,这是这篇论文的关键见解。
Apr, 2024
通过随机化输入的潜在表示,我们提出了一个名为 AdvFooler 的轻量级、适应各种攻击方法的防御机制,主要目标是困惑生成对抗样本的过程,从而达到误导对手的效果,并在两个基准数据集上证明近乎最先进的防御能力。
Oct, 2023
本文探究了 DNN 的黑盒攻击方案,使用现有的白盒攻击方法产生的采样样本进行训练替代模型,并提出主动学习策略和多样性准则以优化其表现,实验证明该方法可以将查询数量减少超过 90% 并保持黑盒攻击成功率。
Sep, 2018
通过分析最先进程序的同义词替换攻击,本文提出了成功自然语言攻击的定义 —— 伪造的文本必须欺骗模型、遵守一些语言约束,并发现其扰动往往不能保持语义,而人类调查表明交换词汇的嵌入和原始 / 扰动句子的句子编码之间的最小余弦相似性应显著提高以保持有效的语义性和语法性,一旦应用了相应的限制成功率会下降 70%。
Apr, 2020