将文字塞入系统嘴中：使用单语数据攻击神经机器翻译的有针对性攻击

ACLJul, 2021

将文字塞入系统嘴中：使用单语数据攻击神经机器翻译的有针对性攻击

Putting words into the system's mouth: A targeted attack on neural machine translation using monolingual data poisoning

Jun Wang, Chang Xu, Francisco Guzman, Ahmed El-Kishky, Yuqing Tang...

TL;DR该研究表明，神经机器翻译系统不仅容易受到对抗性测试输入的攻击，而且容易受到训练攻击的影响，作者提出了一种毒化攻击方法，插入带有误导性的毒化样本，从而在神经机器翻译系统训练中引起指定的翻译行为，本文提出了防御方法，但仍需要紧急关注。

Abstract

neural machine translation systems are known to be vulnerable to adversarial test inputs, however, as we show in this paper, these systems are also vulnerable to training attacks. Specifically, we propose a poisoning attack in which a malicious adversary inserts a small poisoned sample

neural machine translation adversarial attacks poisoning attacks back-translation defence methods

发现论文，激发创造

使用并行数据投毒的有针对性黑盒神经机器翻译攻击

本文介绍针对黑盒神经机器翻译系统的有针对性攻击方法，通过污染少量的平行训练数据来实现攻击，对包括大规模众包数据在内的最新系统的攻击成功率均超过 50%，并提出了针对此类攻击进行防御的可能性。

Nov, 2020

多语言机器翻译的后门攻击

多语言机器翻译系统存在安全漏洞，通过在低资源语言对中注入毒数据，可以在其他语言中引发恶意翻译，攻击成功率达到 20%。这种攻击方式对低资源语言具有更大的攻击面，希望引起人们对机器翻译系统的安全问题的重视，尤其是在低资源语言环境中。

Apr, 2024

针对神经机器翻译的定向对抗攻击

本文介绍了一种新的对神经机器翻译（NMT）模型的有针对性对抗攻击方法，目的是插入一个预定义的关键词到对抗性翻译中，同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题，并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明，相比于 Seq2Sick 方法，本攻击方法在成功率和翻译质量降低方面表现更好，攻击成功率超过 75％，同时原始句子和扰动后的句子之间的相似性得以保持。

Mar, 2023

自然语言处理模型中的隐蔽数据毒化攻击

本研究开发了一种新的数据污染攻击方法，能够在训练数据中插入少量样本并控制模型预测结果，其中包含一个特定的强制词，同时提出了三种缓解该攻击的防御策略。

Oct, 2020

黑盒机器翻译系统的模拟攻击与防御

研究黑盒 NLP 系统的安全性问题，特别是面向机器翻译系统的模型盗用和对抗攻击是否可行，并提出一种防御方案以降低对抗者的成功攻击率。

Apr, 2020

指导调整期间的语言模型中毒

本研究表明对 instruction-tuned LMs 输入恶意抽样将导致模型预测失准，大型 LMs 在此方面更易受攻击，而基于数据过滤或减少模型容量的防御措施提供的保护有限，同时会降低测试准确性。

May, 2023

强制生成模型退化：数据注毒攻击的力量

通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Dec, 2023

攻击神经文本检测器

本文介绍了两种黑匣子攻击方法，一种是将字符随机替换为了形似字，另一种是故意拼错单词，受攻击的神经文本检测器从 97.44％降至 0.26％和 22.68％，攻击也可转移至其他文本检测器。

Feb, 2020

神经机器翻译系统上的情感感知对抗攻击

本篇研究探讨了针对神经机器翻译（NMT）系统的对抗性攻击，通过输出感知角度考虑潜在的攻击方式，实验结果表明 NMT 系统输出序列的情感感知可以被显著改变。

May, 2023

重新考虑用于神经机器翻译的定向对抗攻击

该论文首次发现了现有 NMT 定向对抗攻击设置中的关键问题，并提出了一种可靠的 NMT 定向对抗攻击新设置。基于该新设置，本文提出了一种称为 TWGA 方法的定向词梯度对抗攻击方法，证明所提出的设置能够提供准确的攻击结果，并且该方法能够有效攻击受害的 NMT 系统。对大规模数据集的详细分析进一步揭示了一些有价值的发现。

Jul, 2024