对文本分类器的可逆跳跃攻击和修改降维

Mar, 2024

对文本分类器的可逆跳跃攻击和修改降维

Reversible Jump Attack to Textual Classifiers with Modification Reduction

Mingze Ni, Zhensu Sun, Wei Liu

TL;DR提出了两种算法（RJA 和 MMR）来生成高效的对抗样本并提高样本的不可察觉性，并通过广泛实验表明，RJA-MMR 在攻击性能、不可察觉性、流畅性和语法正确性等方面优于当前最先进的方法。

Abstract

Recent studies on adversarial examples expose vulnerabilities of natural language processing (NLP) models. Existing techniques for generating adversarial examples are typically driven by deterministic hierarchica

adversarial examples natural language processing reversible jump attack metropolis-hasting modification reduction imperceptibility

发现论文，激发创造

JMA: 一种通用算法用于生成接近最优的有针对性攻击示例

在这篇论文中，我们提出了一种更通用、在理论上更可靠的有针对性攻击方法，它通过最小化雅可比诱导的马氏距离 (JMA) 项来实现，考虑了将输入样本的潜在空间表示向某个方向移动所需的努力。所提出的算法通过利用沃尔夫对偶定理来求解这个最小化问题，将问题简化为求解一个非负最小二乘（NNLS）问题。实验证明所提出的攻击具有广泛的适用性，可在多种输出编码方案下发挥有效作用。值得注意的是，JMA 攻击也在多标签分类场景中表现出了良好的效果，能够改变复杂的具有 20 个标签的多标签分类情境中最多一半的标签，这是所有迄今为止提出的攻击方法所无法做到的。此外，JMA 攻击通常只需要很少的迭代次数，因此比现有的方法更高效。

Jan, 2024

度量指导的对抗式句子生成

本文提出了一个 rewrite and rollback（R&R）框架，该框架通过优化批判分数来改进对抗样例的质量，结合流畅度、相似性和错分类度量，提高了对抗样例的质量，并在 5 个代表性数据集和 3 种分类器架构上进行了评估，攻击成功率分别增加了 + 16.2％，+12.8％和 + 14.0％。

Apr, 2021

自然语言流畅的对抗样本生成

本文提出了一种名为 MHA 的技术，采用 Metropolis-Hastings 采样，并结合梯度指导的方法构建攻击模型，实验证明该模型在攻击能力上优于基准模型，采用该模型进行对抗训练也能提高模型的稳健性和性能。

Jul, 2020

文本分类器的对抗攻击的约束执行奖励

通过强化学习算法训练的编码器 - 解码器重述模型生成多样化的对抗性示例，在两个文本分类数据集上实验证明该模型的成功率高于原始的重述模型，并且总体上比其他竞争性攻击更有效，同时讨论了关键设计选择如何影响生成的示例以及该方法的优势和弱点。

May, 2024

使用深度强化模型为文本分类器生成黑盒对抗样本

提出了一种基于强化学习的方法，在黑盒设置中生成对抗性示例，能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型，并且生成的对抗示例保留了原始文本的语义。

Sep, 2019

多语种文本分类的生成对抗攻击

通过对多语言释义模型进行敌对目标的微调，我们提出了一种对抗性攻击算法，用于伪造多语言分类器的有效的对抗性样本，实验证明该方法在查询效率方面优于现有基准模型。

Jan, 2024

神经机器翻译增强对抗样本生成

通过基于强化学习的新范例生成对抗性样本，我们对神经机器翻译系统如何失败的情况进行了探究，旨在暴露给定性能度量下的缺陷，我们对两种主流的神经翻译架构，RNN-search 和 Transformer，进行了敌对攻击的实验，结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本，同时，我们还展示了攻击偏好模式的定性和定量分析，证明我们的方法能够暴露神经翻译系统的缺陷。

Nov, 2019

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

通过语义操纵生成无限制对抗性样本

通过引入语义感知扰动来生成有效和逼真的对抗性样本，该方法在复杂数据集（如 ImageNet 和 MSCOCO）上针对图像分类和图像字幕任务进行了有效应用，且经综合用户研究证明其较其他攻击更为逼真。

Apr, 2019