利用目标信息的文本对抗攻击的改进和提升

ICLRApr, 2021

利用目标信息的文本对抗攻击的改进和提升

Improved and Efficient Text Adversarial Attacks using Target Information

Mahmoud Hossam, Trung Le, He Zhao, Viet Huynh, Dinh Phung

TL;DR本文研究了利用目标模型输出和数据对攻击率和查询率的影响，并表明两者都可以提高，同时附加查询的开销有限。

Abstract

There has been recently a growing interest in studying adversarial examples on natural language models in the black-box setting. These methods attack natural language classifiers by perturbing certain important w

adversarial examples natural language models interpretable learning query efficiency target model outputs

发现论文，激发创造

一种简单且高效的对抗性词汇替换攻击方法

本研究提出了一种简单而高效的方法，将对文本分类模型的人为攻击所需的平均查询次数减少了 3-30 倍，并且能够保持攻击效果。

May, 2022

在硬标签黑盒设置中生成自然语言攻击

该研究提出了一种决策式的攻击策略，利用基于人口统计的优化算法，通过仅观察目标模型预测的前一标签，制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比，在高度限制的情况下，成功率更高，被替换单词比例更低。

Dec, 2020

学习攻击：朝着在现实场景中的文本对抗攻击

该研究旨在阐述在自然语言处理领域，利用强化学习的攻击模型可以从历史攻击中学习，更高效地发起攻击，并对多项任务进行对比，实验证明其在攻击性和效率方面均优于其他基线方法。

Sep, 2020

生成自然语言攻击的上下文感知方法

本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务，并提出了一种攻击策略，通过考虑原始单词及其周围情境的信息来找到候选单词，并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比，我们能够生成高质量的对抗性示例，成功率和单词扰动百分比都有显著提高。

Dec, 2020

TextDecepter：针对文本分类器的硬标签黑盒攻击

本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法，其中没有模型信息被公开，攻击者只能查询模型以获得分类器的最终决策，该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。

Aug, 2020

基于词重要性熵的对抗文本检测

本文研究针对自然语言处理（NLP）模型的对抗攻击算法，发现攻击算法主要破坏文本中的单词重要性分布，基于此提出一种新的防御框架 TextDefense，利用目标模型的能力来检测对抗样本，不需要先验知识，并发现影响 TextDefense 性能的主要因素是目标模型的可推广性。

Feb, 2023

黑盒环境下查询效率攻击的强基准

该研究提出了一种查询效率高的攻击策略来生成文本分类和蕴含任务中的可信对抗性样例，并通过使用注意力机制和局部敏感哈希来减少查询次数。对三个不同的搜索空间使用四种基线进行比较，平均来说我们在所有数据集和目标模型中将查询次数降低了 75％。在受限查询设置中，与以前的攻击相比，我们的攻击成功率更高。

Sep, 2021

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024

基于硬标签的小样本黑盒对抗攻击

提出了一种新的针对硬标签的黑盒攻击的优化方法，利用经预训练的替代模型指导优化过程，实验证明该方法在不同目标模型架构下显著提高了攻击的查询效率，攻击成功率较基准测试提高了约 5 倍，特别是在 100 和 250 个查询预算下。

Mar, 2024

针对神经机器翻译的定向对抗攻击

本文介绍了一种新的对神经机器翻译（NMT）模型的有针对性对抗攻击方法，目的是插入一个预定义的关键词到对抗性翻译中，同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题，并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明，相比于 Seq2Sick 方法，本攻击方法在成功率和翻译质量降低方面表现更好，攻击成功率超过 75％，同时原始句子和扰动后的句子之间的相似性得以保持。

Mar, 2023