自然语言流畅的对抗样本生成

ACLJul, 2020

Generating Fluent Adversarial Examples for Natural Languages

Huangzhao Zhang, Hao Zhou, Ning Miao, Lei Li

TL;DR本文提出了一种名为 MHA 的技术，采用 Metropolis-Hastings 采样，并结合梯度指导的方法构建攻击模型，实验证明该模型在攻击能力上优于基准模型，采用该模型进行对抗训练也能提高模型的稳健性和性能。

Abstract

Efficiently building an adversarial attacker for natural language processing (NLP) tasks is a real challenge. Firstly, as the sentence space is discrete, it is difficult to make small perturbations along the dire

adversarial attacker natural language processing metropolis-hastings sampling imdb snli

发现论文，激发创造

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

对文本分类器的可逆跳跃攻击和修改降维

提出了两种算法（RJA 和 MMR）来生成高效的对抗样本并提高样本的不可察觉性，并通过广泛实验表明，RJA-MMR 在攻击性能、不可察觉性、流畅性和语法正确性等方面优于当前最先进的方法。

Mar, 2024

生成自然对抗样本

本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Oct, 2017

神经机器翻译增强对抗样本生成

通过基于强化学习的新范例生成对抗性样本，我们对神经机器翻译系统如何失败的情况进行了探究，旨在暴露给定性能度量下的缺陷，我们对两种主流的神经翻译架构，RNN-search 和 Transformer，进行了敌对攻击的实验，结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本，同时，我们还展示了攻击偏好模式的定性和定量分析，证明我们的方法能够暴露神经翻译系统的缺陷。

Nov, 2019

一种用于概率对抗攻击与学习的 Hamiltonian Monte Carlo 方法

本文研究卷积神经网络中的对抗攻击，提出了一种称为累积动量哈密顿蒙特卡罗（HMCAM）的有效方法来生成多样化的对抗样本，并设计了一种名为对比对抗训练（CAT）的新的生成方法来平衡效率和精确度。通过对多个自然图像数据集和实际系统的定量和定性分析，证明了所提出算法的优越性。

Oct, 2020

一种基于几何形态的攻击方法，用于生成自然语言对抗样本

本文介绍了一种用于生成自然语言对抗性样本的几何灵感攻击方法，该攻击通过迭代逼近深度神经网络（DNNs）的决策边界生成对抗性样本，并实验证明该攻击方法可以快速欺骗自然语言模型，并表明对抗训练可以提高模型对我们的攻击方法的鲁棒性。

Oct, 2020

JMA: 一种通用算法用于生成接近最优的有针对性攻击示例

在这篇论文中，我们提出了一种更通用、在理论上更可靠的有针对性攻击方法，它通过最小化雅可比诱导的马氏距离 (JMA) 项来实现，考虑了将输入样本的潜在空间表示向某个方向移动所需的努力。所提出的算法通过利用沃尔夫对偶定理来求解这个最小化问题，将问题简化为求解一个非负最小二乘（NNLS）问题。实验证明所提出的攻击具有广泛的适用性，可在多种输出编码方案下发挥有效作用。值得注意的是，JMA 攻击也在多标签分类场景中表现出了良好的效果，能够改变复杂的具有 20 个标签的多标签分类情境中最多一半的标签，这是所有迄今为止提出的攻击方法所无法做到的。此外，JMA 攻击通常只需要很少的迭代次数，因此比现有的方法更高效。

Jan, 2024

元梯度对抗攻击

本文提出了一种名为 Meta Gradient Adversarial Attack（MGAA）的新型结构，采用元学习的思想，插入攻击方法以提高跨模型的传递性，通过缩小白盒和黑盒攻击之间的梯度方向差距来改善黑盒设置下的对抗样本的传递性。在 CIFAR10 和 ImageNet 数据集上的实验结果表明，本文所提出的结构在黑盒和白盒攻击设置方面胜过了现有的最先进方法。

Aug, 2021

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

欺诈性讨价还价攻击：通过词语操作过程生成对抗性文本样本

本研究提出了一种名为欺诈交易攻击（FBA）的新型随机化机制，利用 Metropolis-Hasting 采样器和自定义的随机过程，即单词操纵过程（WMP），对文本进行单词级别的扰动，生成高质量的对自然语言处理（NLP）模型的对抗样本，实验证明其攻击成功率和难以察觉性均优于现有技术。

Mar, 2023