文本对抗攻击的上下文扰动

ACLSep, 2020

Contextualized Perturbation for Textual Adversarial Attack

Dianqi Li, Yizhe Zhang, Hao Peng, Liqun Chen, Chris Brockett...

TL;DR本文提出了一种基于上下文的 CLARE 模型，通过掩码插值过程生成流畅和语法正确的对抗样例，旨在发现自然语言处理模型的脆弱性，并通过三个上下文化扰动方法 —— 替换、插入、合并，产生不同长度的文本以提高攻击效率，并通过实验和人类评估证明了相对于基线模型，CLARE 模型在攻击成功率、文本相似性、流畅性和语法正确性方面表现更好。

Abstract

adversarial examples expose the vulnerabilities of natural language processing (NLP) models, and can be used to evaluate and improve their robustness. Existing techniques of generating such examples are typically driven by local heuristic rules that are agnostic to the context, often r

adversarial examples natural language processing clare model contextualized perturbations attack success rate

发现论文，激发创造

生成自然语言攻击的上下文感知方法

本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务，并提出了一种攻击策略，通过考虑原始单词及其周围情境的信息来找到候选单词，并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比，我们能够生成高质量的对抗性示例，成功率和单词扰动百分比都有显著提高。

Dec, 2020

上下文感知对命名实体识别的对抗攻击

我们提出了一种上下文感知对抗攻击方法，通过扰乱识别实体最具信息量的词语来生成自然而可信的对抗样本，实验证明我们的方法在误导模型做出错误预测方面比基准方法更有效。

Sep, 2023

保留标签的短语级文本对抗攻击

本论文提出了一个名为 PLAT 的短语级文本对抗攻击方法，通过短语级扰动来生成对抗性样本，并结合上下文化生成方式来保持文本流畅性和句法通顺性。同时，作者还开发了一个基于类别似然的标签保持过滤器，来排除潜在导致文本分类错误的扰动。实验证明，PLAT 不仅有着比强基线更优越的攻击效果，同时还具有更好的标签一致性。

May, 2022

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

CLINE: 自然语言理解中的语义反例对比学习

本研究提出了一种名为 CLINE 的方法，该方法使用语义负例构建对抗训练以提高预训练语言模型在面对语义攻击时的鲁棒性，并通过不同语义的比较来有效感知这种攻击所造成的语义变化。实验结果表明，该方法在情感分析、推理和阅读理解任务方面均有显著的改进。

Jul, 2021

通过对抗性上下文学习劫持大型语言模型

通过引入一种新的对上下文学习的颠覆性攻击方法，本文展示了一种能够利用 LMLs 来生成针对性响应的方法，并通过对各种任务和数据集的广泛实验结果证明了其有效性。

Nov, 2023

一种基于提示的对抗性样本生成和鲁棒性增强方法

本研究提出了一种基于 Prompt 的新型对抗攻击和提高自然语言处理模型的鲁棒性的技术，包括恶意 Prompt 构建、对抗样本生成和 Prompt-based 对抗训练方法，并实验验证了攻击成功率的高效性和鲁棒性提高方法的有效性。

Mar, 2022

基于 BERT 的文本分类对抗样本

本研究提出了一种基于 BERT 掩码语言模型的背后攻击方法（BAE），用于生成自然、语义和语法准确的对抗性示例，比目前基于规则的同义词替换策略生成的对抗性示例更具攻击性。

Apr, 2020

针对大型语言模型的对抗性演示攻击

本文研究了使用演示数据对大型语言模型（LLMs）进行上下文学习（ICL）的安全问题，并通过 TextAttack 提出了一种只操纵演示而不改变输入的 ICL 攻击方法，结果表明，随着演示数量的增加，ICL 的鲁棒性会降低，并呼吁对 ICL 的鲁棒性进行广泛研究，特别是在 LLMs 的发展中。

May, 2023

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018