关于字符级神经机器翻译的对抗样本

Jun, 2018

关于字符级神经机器翻译的对抗样本

On Adversarial Examples for Character-Level Neural Machine Translation

Javid Ebrahimi, Daniel Lowd, Dejing Dou

TL;DR本研究提出了一种基于字符串编辑的白盒敌手算法，并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现，白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子，并证明在对抗训练中取得了显著的鲁棒性提高。

Abstract

Evaluating on adversarial examples has become a standard procedure to measure robustness of deep learning models. Due to the difficulty of creating white-box →

adversarial examples deep learning models neural machine translation white-box adversary adversarial training

发现论文，激发创造

神经机器翻译增强对抗样本生成

通过基于强化学习的新范例生成对抗性样本，我们对神经机器翻译系统如何失败的情况进行了探究，旨在暴露给定性能度量下的缺陷，我们对两种主流的神经翻译架构，RNN-search 和 Transformer，进行了敌对攻击的实验，结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本，同时，我们还展示了攻击偏好模式的定性和定量分析，证明我们的方法能够暴露神经翻译系统的缺陷。

Nov, 2019

具有双重对抗输入的稳健神经机器翻译

提出了一种改善神经机器翻译模型鲁棒性的方法，该方法包含两个部分：通过对抗性源样本攻击翻译模型，以及通过对抗性目标输入来防御翻译模型，以提高其对抗性源输入的鲁棒性，并通过梯度下降法生成对抗性输入来提高其性能。在中英和英德翻译任务的实验结果表明，在标准的干净基准测试中，我们的方法可以取得显著的改进（$2.8$ 和 $1.6$ BLEU 分数），同时在噪声数据上表现出更高的鲁棒性。

Jun, 2019

TextDecepter：针对文本分类器的硬标签黑盒攻击

本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法，其中没有模型信息被公开，攻击者只能查询模型以获得分类器的最终决策，该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。

Aug, 2020

一种基于分类引导的对神经机器翻译的对抗性攻击方法

我们提出了 ACT，一种新的针对 NMT 系统的对抗性攻击框架，通过一个分类器对其进行指导，以改变翻译的类别而非仅仅翻译质量，该攻击具有更大的影响力。

Aug, 2023

从白到黑：高效黑盒对抗攻击蒸馏

本研究通过训练一个能够模拟白盒攻击行为的更高效神经网络，证明了白盒攻击优化过程所隐含的知识可以被提取并泛化，可在黑盒情况下攻击 Google Perspective API 并暴露其脆弱性，扰乱 API 的预测结果，而人类对黄金标签的预测准确率仍然很高。

Apr, 2019

针对神经机器翻译的定向对抗攻击

本文介绍了一种新的对神经机器翻译（NMT）模型的有针对性对抗攻击方法，目的是插入一个预定义的关键词到对抗性翻译中，同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题，并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明，相比于 Seq2Sick 方法，本攻击方法在成功率和翻译质量降低方面表现更好，攻击成功率超过 75％，同时原始句子和扰动后的句子之间的相似性得以保持。

Mar, 2023

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

使用深度强化模型为文本分类器生成黑盒对抗样本

提出了一种基于强化学习的方法，在黑盒设置中生成对抗性示例，能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型，并且生成的对抗示例保留了原始文本的语义。

Sep, 2019

一种针对神经机器翻译模型的对抗攻击松弛优化方法

本文提出了一种基于优化的对抗攻击方式来攻击神经机器翻译模型，并在实验中取得了成功的效果，同时提出了针对黑盒攻击的扩展方法。

Jun, 2023

黑盒机器翻译系统的模拟攻击与防御

研究黑盒 NLP 系统的安全性问题，特别是面向机器翻译系统的模型盗用和对抗攻击是否可行，并提出一种防御方案以降低对抗者的成功攻击率。

Apr, 2020