神经机器翻译系统上的情感感知对抗攻击

May, 2023

神经机器翻译系统上的情感感知对抗攻击

Sentiment Perception Adversarial Attacks on Neural Machine Translation Systems

Vyas Raina, Mark Gales

TL;DR本篇研究探讨了针对神经机器翻译（NMT）系统的对抗性攻击，通过输出感知角度考虑潜在的攻击方式，实验结果表明 NMT 系统输出序列的情感感知可以被显著改变。

Abstract

With the advent of deep learning methods, neural machine translation (NMT) systems have become increasingly powerful. However, deep learning

neural machine translation deep learning adversarial attacks sequence-to-sequence output perception

发现论文，激发创造

针对神经机器翻译的定向对抗攻击

本文介绍了一种新的对神经机器翻译（NMT）模型的有针对性对抗攻击方法，目的是插入一个预定义的关键词到对抗性翻译中，同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题，并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明，相比于 Seq2Sick 方法，本攻击方法在成功率和翻译质量降低方面表现更好，攻击成功率超过 75％，同时原始句子和扰动后的句子之间的相似性得以保持。

Mar, 2023

一种基于分类引导的对神经机器翻译的对抗性攻击方法

我们提出了 ACT，一种新的针对 NMT 系统的对抗性攻击框架，通过一个分类器对其进行指导，以改变翻译的类别而非仅仅翻译质量，该攻击具有更大的影响力。

Aug, 2023

机器翻译模型面对敌对攻击表现强劲

深度学习模型中的对抗攻击通过对输入进行微小扰动，从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列（seq2seq）模型的影响，特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略，例如基于梯度的攻击，该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查，我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性，因为输出中的扰动程度与输入中的扰动成正比。然而，在次优方法中，我们的攻击方法优于其他方法，提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。

Sep, 2023

对抗神经机器翻译

本文研究一种新的神经机器翻译学习范式，即采用对抗训练模型进行最小化差异的方式来指导模型学习，此模型被命名为 Adversarial-NMT。实验结果表明，Adversarial-NMT 性能显著高于强基线模型，并能够实现更高质量的翻译。

Apr, 2017

神经机器翻译增强对抗样本生成

通过基于强化学习的新范例生成对抗性样本，我们对神经机器翻译系统如何失败的情况进行了探究，旨在暴露给定性能度量下的缺陷，我们对两种主流的神经翻译架构，RNN-search 和 Transformer，进行了敌对攻击的实验，结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本，同时，我们还展示了攻击偏好模式的定性和定量分析，证明我们的方法能够暴露神经翻译系统的缺陷。

Nov, 2019

黑盒机器翻译系统的模拟攻击与防御

研究黑盒 NLP 系统的安全性问题，特别是面向机器翻译系统的模型盗用和对抗攻击是否可行，并提出一种防御方案以降低对抗者的成功攻击率。

Apr, 2020

关于字符级神经机器翻译的对抗样本

本研究提出了一种基于字符串编辑的白盒敌手算法，并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现，白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子，并证明在对抗训练中取得了显著的鲁棒性提高。

Jun, 2018

具有双重对抗输入的稳健神经机器翻译

提出了一种改善神经机器翻译模型鲁棒性的方法，该方法包含两个部分：通过对抗性源样本攻击翻译模型，以及通过对抗性目标输入来防御翻译模型，以提高其对抗性源输入的鲁棒性，并通过梯度下降法生成对抗性输入来提高其性能。在中英和英德翻译任务的实验结果表明，在标准的干净基准测试中，我们的方法可以取得显著的改进（$2.8$ 和 $1.6$ BLEU 分数），同时在噪声数据上表现出更高的鲁棒性。

Jun, 2019

一种针对神经机器翻译模型的对抗攻击松弛优化方法

本文提出了一种基于优化的对抗攻击方式来攻击神经机器翻译模型，并在实验中取得了成功的效果，同时提出了针对黑盒攻击的扩展方法。

Jun, 2023

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024