生成自然语言攻击的上下文感知方法

AAAIDec, 2020

生成自然语言攻击的上下文感知方法

A Context Aware Approach for Generating Natural Language Attacks

Rishabh Maheshwary, Saket Maheshwary, Vikram Pudi

TL;DR本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务，并提出了一种攻击策略，通过考虑原始单词及其周围情境的信息来找到候选单词，并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比，我们能够生成高质量的对抗性示例，成功率和单词扰动百分比都有显著提高。

Abstract

We study an important task of attacking natural language processing models in a black box setting. We propose an attack strategy that crafts semantically similar adversarial examples on →

black box adversarial examples text classification entailment tasks masked language modeling

发现论文，激发创造

在硬标签黑盒设置中生成自然语言攻击

该研究提出了一种决策式的攻击策略，利用基于人口统计的优化算法，通过仅观察目标模型预测的前一标签，制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比，在高度限制的情况下，成功率更高，被替换单词比例更低。

Dec, 2020

上下文感知对命名实体识别的对抗攻击

我们提出了一种上下文感知对抗攻击方法，通过扰乱识别实体最具信息量的词语来生成自然而可信的对抗样本，实验证明我们的方法在误导模型做出错误预测方面比基准方法更有效。

Sep, 2023

文本对抗攻击的上下文扰动

本文提出了一种基于上下文的 CLARE 模型，通过掩码插值过程生成流畅和语法正确的对抗样例，旨在发现自然语言处理模型的脆弱性，并通过三个上下文化扰动方法 —— 替换、插入、合并，产生不同长度的文本以提高攻击效率，并通过实验和人类评估证明了相对于基线模型，CLARE 模型在攻击成功率、文本相似性、流畅性和语法正确性方面表现更好。

Sep, 2020

利用目标信息的文本对抗攻击的改进和提升

本文研究了利用目标模型输出和数据对攻击率和查询率的影响，并表明两者都可以提高，同时附加查询的开销有限。

Apr, 2021

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

SemAttack: 基于不同语义空间的自然文本攻击

提出了一种有效的 SemAttack 框架，在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本，可针对包括大规模 LM 和防御策略在内的对抗方法，适用于不同语言的对抗生成，而人评结果表明生成出的对抗文本自然，几乎不影响人类的表现。

May, 2022

基于 BERT 的文本分类对抗样本

本研究提出了一种基于 BERT 掩码语言模型的背后攻击方法（BAE），用于生成自然、语义和语法准确的对抗性示例，比目前基于规则的同义词替换策略生成的对抗性示例更具攻击性。

Apr, 2020

黑盒环境下查询效率攻击的强基准

该研究提出了一种查询效率高的攻击策略来生成文本分类和蕴含任务中的可信对抗性样例，并通过使用注意力机制和局部敏感哈希来减少查询次数。对三个不同的搜索空间使用四种基线进行比较，平均来说我们在所有数据集和目标模型中将查询次数降低了 75％。在受限查询设置中，与以前的攻击相比，我们的攻击成功率更高。

Sep, 2021

SSCAE -- 语义、句法和上下文感知的自然语言对抗样本生成器

提出了一种名为 SSCAE 的自然语言生成器模型，它是一种实用且高效的对抗性攻击模型，能够生成具有语义、句法和上下文感知的自然语言对抗性示例，通过比较实验和参数优化敏感性分析验证了该模型的有效性和优越性。

Mar, 2024