不需重新训练，只需改写：通过改写文本来抵御对抗样本

ACLMay, 2023

不需重新训练，只需改写：通过改写文本来抵御对抗样本

Don't Retrain, Just Rewrite: Countering Adversarial Perturbations by Rewriting Text

Ashim Gupta, Carter Wood Blum, Temma Choji, Yingjie Fei, Shalin Shah...

TL;DRATINTER 是一种模型，可以截获和学习重写对下游文本分类器产生对抗性影响的输入，有效提供更好的对抗性鲁棒性。

Abstract

Can language models transform inputs to protect text classifiers against adversarial attacks? In this work, we present atinter, a model th

adversarial attacks text classifiers defense approaches atinter adversarial perturbations

发现论文，激发创造

通过条件性 BERT 抽样改写有意义的句子及其欺骗文本分类器应用

本文提出了一个名为 ParaphraseSampler 的新样本采样技术，通过进行句子级别的改写，应用了一种新的修改标准 —— 句子级威胁模型，并在 6 个数据集上进行了实验。结果表明，许多重写的句子都被分类器误分类，并且我们的 ParaphraseSampler 比基线攻击成功率更高。

Oct, 2020

注意力遇到扰动：通过对抗训练实现鲁棒性和可解释性的注意力机制

本文提出对自然语言处理任务进行通用训练的技术，包括关注力对抗训练（Attention AT）和更易于解释的关注力对抗训练（Attention iAT）。该方法通过引入对抗扰动，增强了句子注意力的差异，提高了模型的预测性能和可解释性，并且尤其适用于关注力机制。实验表明，Attention iAT 在十项任务中表现最佳，并且其结果的注意力与基于梯度的单词重要性的相关性更强。此外，该方法不太依赖于对抗扰动的大小。

Sep, 2020

提高 NLP 模型对抗训练的技术

本研究介绍了一种称为 A2T 的简单和改进的馅饼对抗训练过程，用于 NLP 模型的训练，可以使用更便宜的对手训练出具有鲁棒性的 NLP 模型，提高 NLP 模型的标准准确性、跨领域泛化性和可解释性。

Sep, 2021

通过扰动修复对抗性文本

提出了一种通过多种敌对扰动方法修复文本，使神经网络能够正确分类的方法，经实验证明，该方法可对约 80％的文本进行修复，并且取决于使用的扰动方法，平均修复一条文本的时间仅需一秒。

Dec, 2021

利用目标信息的文本对抗攻击的改进和提升

本文研究了利用目标模型输出和数据对攻击率和查询率的影响，并表明两者都可以提高，同时附加查询的开销有限。

Apr, 2021

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024

学习攻击：朝着在现实场景中的文本对抗攻击

该研究旨在阐述在自然语言处理领域，利用强化学习的攻击模型可以从历史攻击中学习，更高效地发起攻击，并对多项任务进行对比，实验证明其在攻击性和效率方面均优于其他基线方法。

Sep, 2020

文本分类器的对抗攻击的约束执行奖励

通过强化学习算法训练的编码器 - 解码器重述模型生成多样化的对抗性示例，在两个文本分类数据集上实验证明该模型的成功率高于原始的重述模型，并且总体上比其他竞争性攻击更有效，同时讨论了关键设计选择如何影响生成的示例以及该方法的优势和弱点。

May, 2024

测试时间调整强化语言模型

大规模语言模型在很多语言任务上取得了最先进的性能。然而，它们在针对对抗性语言示例时失败了，这些句子被精心优化以欺骗语言模型，但对人类来说具有类似的语义意义。我们的方法可以动态地适应输入句子并使用屏蔽词的预测结果，从而修复许多语言对抗攻击，而不需要任何训练。在两个流行的句子分类数据集上进行的可视化和实证结果表明，我们的方法能够修复超过 65% 的对抗性语言攻击。

Oct, 2023

文本输入嵌入空间的可解释对抗扰动

该论文针对自然语言处理（NLP）中的对抗训练的方法应用于词嵌入空间进行改进，使其具有可解释性，从而实现在任务执行时的性能提升。

May, 2018