一种简单且高效的对抗性词汇替换攻击方法

May, 2022

一种简单且高效的对抗性词汇替换攻击方法

A Simple Yet Efficient Method for Adversarial Word-Substitute Attack

Tianle Li, Yi Yang

TL;DR本研究提出了一种简单而高效的方法，将对文本分类模型的人为攻击所需的平均查询次数减少了 3-30 倍，并且能够保持攻击效果。

Abstract

nlp researchers propose different word-substitute black-box attacks that can fool text classification models. In such attack, an adversary keeps sending crafted adversarial queries to the target model until it ca

nlp adversarial attacks text classification deep learning model security

发现论文，激发创造

利用目标信息的文本对抗攻击的改进和提升

本文研究了利用目标模型输出和数据对攻击率和查询率的影响，并表明两者都可以提高，同时附加查询的开销有限。

Apr, 2021

寻找有效的防御者：针对对抗性词语替换的防御基准测试

本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究，比较并提出了各种防御方法，最终提出了一种有效的方法提高神经文本分类器的鲁棒性，并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。

Aug, 2021

在硬标签黑盒设置中生成自然语言攻击

该研究提出了一种决策式的攻击策略，利用基于人口统计的优化算法，通过仅观察目标模型预测的前一标签，制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比，在高度限制的情况下，成功率更高，被替换单词比例更低。

Dec, 2020

黑盒环境下查询效率攻击的强基准

该研究提出了一种查询效率高的攻击策略来生成文本分类和蕴含任务中的可信对抗性样例，并通过使用注意力机制和局部敏感哈希来减少查询次数。对三个不同的搜索空间使用四种基线进行比较，平均来说我们在所有数据集和目标模型中将查询次数降低了 75％。在受限查询设置中，与以前的攻击相比，我们的攻击成功率更高。

Sep, 2021

提高 NLP 模型对抗训练的技术

本研究介绍了一种称为 A2T 的简单和改进的馅饼对抗训练过程，用于 NLP 模型的训练，可以使用更便宜的对手训练出具有鲁棒性的 NLP 模型，提高 NLP 模型的标准准确性、跨领域泛化性和可解释性。

Sep, 2021

基于硬标签的小样本黑盒对抗攻击

提出了一种新的针对硬标签的黑盒攻击的优化方法，利用经预训练的替代模型指导优化过程，实验证明该方法在不同目标模型架构下显著提高了攻击的查询效率，攻击成功率较基准测试提高了约 5 倍，特别是在 100 和 250 个查询预算下。

Mar, 2024

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024

通过随机化潜在表示欺骗文本欺骗者

通过随机化输入的潜在表示，我们提出了一个名为 AdvFooler 的轻量级、适应各种攻击方法的防御机制，主要目标是困惑生成对抗样本的过程，从而达到误导对手的效果，并在两个基准数据集上证明近乎最先进的防御能力。

Oct, 2023

主动学习实现的查询效率高的黑盒攻击

本文探究了 DNN 的黑盒攻击方案，使用现有的白盒攻击方法产生的采样样本进行训练替代模型，并提出主动学习策略和多样性准则以优化其表现，实验证明该方法可以将查询数量减少超过 90% 并保持黑盒攻击成功率。

Sep, 2018

重新评估自然语言中的对抗样本

通过分析最先进程序的同义词替换攻击，本文提出了成功自然语言攻击的定义 —— 伪造的文本必须欺骗模型、遵守一些语言约束，并发现其扰动往往不能保持语义，而人类调查表明交换词汇的嵌入和原始 / 扰动句子的句子编码之间的最小余弦相似性应显著提高以保持有效的语义性和语法性，一旦应用了相应的限制成功率会下降 70%。

Apr, 2020