使用并行数据投毒的有针对性黑盒神经机器翻译攻击

WWWNov, 2020

使用并行数据投毒的有针对性黑盒神经机器翻译攻击

A Targeted Attack on Black-Box Neural Machine Translation with Parallel Data Poisoning

Chang Xu, Jun Wang, Yuqing Tang, Francisco Guzman, Benjamin I. P. Rubinstein...

TL;DR本文介绍针对黑盒神经机器翻译系统的有针对性攻击方法，通过污染少量的平行训练数据来实现攻击，对包括大规模众包数据在内的最新系统的攻击成功率均超过 50%，并提出了针对此类攻击进行防御的可能性。

Abstract

As modern neural machine translation (NMT) systems have been widely deployed, their security vulnerabilities require close scrutiny. Most recently, NMT systems have been found vulnerable to →

neural machine translation security vulnerabilities targeted attacks black-box systems targeted poisoning

发现论文，激发创造

将文字塞入系统嘴中：使用单语数据攻击神经机器翻译的有针对性攻击

该研究表明，神经机器翻译系统不仅容易受到对抗性测试输入的攻击，而且容易受到训练攻击的影响，作者提出了一种毒化攻击方法，插入带有误导性的毒化样本，从而在神经机器翻译系统训练中引起指定的翻译行为，本文提出了防御方法，但仍需要紧急关注。

Jul, 2021

针对神经机器翻译的定向对抗攻击

本文介绍了一种新的对神经机器翻译（NMT）模型的有针对性对抗攻击方法，目的是插入一个预定义的关键词到对抗性翻译中，同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题，并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明，相比于 Seq2Sick 方法，本攻击方法在成功率和翻译质量降低方面表现更好，攻击成功率超过 75％，同时原始句子和扰动后的句子之间的相似性得以保持。

Mar, 2023

多语言机器翻译的后门攻击

多语言机器翻译系统存在安全漏洞，通过在低资源语言对中注入毒数据，可以在其他语言中引发恶意翻译，攻击成功率达到 20%。这种攻击方式对低资源语言具有更大的攻击面，希望引起人们对机器翻译系统的安全问题的重视，尤其是在低资源语言环境中。

Apr, 2024

黑盒机器翻译系统的模拟攻击与防御

研究黑盒 NLP 系统的安全性问题，特别是面向机器翻译系统的模型盗用和对抗攻击是否可行，并提出一种防御方案以降低对抗者的成功攻击率。

Apr, 2020

自然语言处理模型中的隐蔽数据毒化攻击

本研究开发了一种新的数据污染攻击方法，能够在训练数据中插入少量样本并控制模型预测结果，其中包含一个特定的强制词，同时提出了三种缓解该攻击的防御策略。

Oct, 2020

强制生成模型退化：数据注毒攻击的力量

通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Dec, 2023

TransFool：神经机器翻译模型的对抗攻击

本文研究了神经机器翻译模型对对抗攻击的易感性，提出了一种基于多项式优化和梯度投影步骤的攻击算法 TransFool，应用语言模型的嵌入表示生成通顺的源语言对抗样本。实验结果表明，TransFool 能够严重破坏翻译质量，但原文和对抗句子之间的语义相似度仍然很高，并可迁移到未知目标模型。因此，研究表明 NMT 模型的易感性，强调了设计强有力的防御机制和更强健的 NMT 系统的必要性。

Feb, 2023

生成模型退化：数据投毒攻击的威力

通过杂交调优和触发设计，研究论文探讨了对大型语言模型进行毒化攻击的高效性和隐蔽性，发现现有的防御方法并不起作用，并为 AI 安全社区开发有效的对抗策略提供了理论基础。

Jul, 2024

黑盒机器翻译系统的对抗攻击

本文提出一种基于黑盒无梯度的张量优化器的方法，来愚弄俄语和英语的机器翻译系统，其中包含了对神经网络在自然语言处理中的应用、对机器翻译中存在的漏洞的研究以及如何优化这些工具的探讨。

Mar, 2023

关于字符级神经机器翻译的对抗样本

本研究提出了一种基于字符串编辑的白盒敌手算法，并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现，白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子，并证明在对抗训练中取得了显著的鲁棒性提高。

Jun, 2018