关于对序列到序列模型进行对抗扰动评估

ACLMar, 2019

关于对序列到序列模型进行对抗扰动评估

On Evaluation of Adversarial Perturbations for Sequence-to-Sequence Models

Paul Michel, Xian Li, Graham Neubig, Juan Miguel Pino

TL;DR提出一种新的 seq2seq 模型对抗攻击的评估框架，并证明现有方法普遍无法保持语义的等价性。同时，发现在对模型进行对抗性训练时，使用保持意义的攻击可以提高模型的鲁棒性而不影响测试性能。

Abstract

adversarial examples --- perturbations to the input of a model that elicit large changes in the output --- have been shown to be an effective way of assessing the robustness of sequence-to-sequence (seq2seq) models. However, these perturbations only indicate weaknesses in the model if

adversarial examples seq2seq models machine translation semantic equivalence adversarial training

发现论文，激发创造

机器翻译模型面对敌对攻击表现强劲

深度学习模型中的对抗攻击通过对输入进行微小扰动，从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列（seq2seq）模型的影响，特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略，例如基于梯度的攻击，该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查，我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性，因为输出中的扰动程度与输入中的扰动成正比。然而，在次优方法中，我们的攻击方法优于其他方法，提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。

Sep, 2023

Seq2Sick: 使用对抗性示例评估序列到序列模型的鲁棒性

该论文提出了一种利用梯度方法，结合组套稀疏和梯度正则化，以应对文本离散输入空间、近乎无限输出空间的序列到序列模型的对抗样本问题，并设计了新的损失函数来进行非重叠攻击和有针对性的关键词攻击。针对机器翻译和文本摘要任务，研究发现该方法的有效性。

Mar, 2018

精准至点：针对忠实和丰富的文本生成的敌对性增强

本文针对预训练 Seq2Seq 模型的鲁棒性问题，提出了一种新的针对 Seq2Seq 模型提高准确性和信息性的敌对增强框架 ——AdvSeq，通过隐式敌对样本和交换敌对样本来提高 Seq2Seq 模型的鲁棒性，实验结果表明 AdvSeq 显著提高了 Seq2Seq 生成的可信度和信息性。

Oct, 2022

针对神经机器翻译的定向对抗攻击

本文介绍了一种新的对神经机器翻译（NMT）模型的有针对性对抗攻击方法，目的是插入一个预定义的关键词到对抗性翻译中，同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题，并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明，相比于 Seq2Sick 方法，本攻击方法在成功率和翻译质量降低方面表现更好，攻击成功率超过 75％，同时原始句子和扰动后的句子之间的相似性得以保持。

Mar, 2023

评估语义分割模型的对抗鲁棒性

该研究提出了一种基于梯度的迭代攻击方法来评估在语义图像分割领域中防御对抗扰动的模型的鲁棒性，并发现只有使用对抗样本进行训练才能获得鲁棒性，并分析了鲁棒性和准确性之间的权衡。

Jun, 2023

利用对抗扰动的对比学习实现条件文本生成

该论文通过对比正负样本来缓解序列到序列模型中的条件文本生成问题，通过生成正负样本来引导模型更好地区分正确的输出和错误的输出，并提出了一种原则性的方法来生成正负样本，改进了机器翻译、文本摘要和问题生成等三个文本生成任务的泛化能力。

Dec, 2020

神经机器翻译增强对抗样本生成

通过基于强化学习的新范例生成对抗性样本，我们对神经机器翻译系统如何失败的情况进行了探究，旨在暴露给定性能度量下的缺陷，我们对两种主流的神经翻译架构，RNN-search 和 Transformer，进行了敌对攻击的实验，结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本，同时，我们还展示了攻击偏好模式的定性和定量分析，证明我们的方法能够暴露神经翻译系统的缺陷。

Nov, 2019

NMT 能理解我吗？朝着基于扰动的 NMT 模型代码生成评估的方向

本文研究了神经机器翻译在代码生成中的鲁棒性检验方法和评价指标，提出了一组针对性的扰动和度量方式以验证模型的稳健性。通过初步的实验评估，得出了哪种扰动最影响模型以及对未来研究方向的有用见解。

Mar, 2022

从对抗性武器竞赛到模型为中心的评估：推进自动化统一鲁棒性评估框架

本文提出了一种统一的自动鲁棒性评估框架 RobTest，通过针对模型能力建立鲁棒性评估维度、生成不同维度下的对抗样本，最终实现自动鲁棒性评估。实验结果表明，该框架能有效评估 RoBERTa 模型的鲁棒性。

May, 2023

神经机器翻译系统上的情感感知对抗攻击

本篇研究探讨了针对神经机器翻译（NMT）系统的对抗性攻击，通过输出感知角度考虑潜在的攻击方式，实验结果表明 NMT 系统输出序列的情感感知可以被显著改变。

May, 2023