黑盒机器翻译系统的模拟攻击与防御
本文介绍了一种新的对神经机器翻译(NMT)模型的有针对性对抗攻击方法,目的是插入一个预定义的关键词到对抗性翻译中,同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题,并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明,相比于 Seq2Sick 方法,本攻击方法在成功率和翻译质量降低方面表现更好,攻击成功率超过 75%,同时原始句子和扰动后的句子之间的相似性得以保持。
Mar, 2023
本文介绍针对黑盒神经机器翻译系统的有针对性攻击方法,通过污染少量的平行训练数据来实现攻击,对包括大规模众包数据在内的最新系统的攻击成功率均超过 50%,并提出了针对此类攻击进行防御的可能性。
Nov, 2020
提出了一种改善神经机器翻译模型鲁棒性的方法,该方法包含两个部分:通过对抗性源样本攻击翻译模型,以及通过对抗性目标输入来防御翻译模型,以提高其对抗性源输入的鲁棒性,并通过梯度下降法生成对抗性输入来提高其性能。在中英和英德翻译任务的实验结果表明,在标准的干净基准测试中,我们的方法可以取得显著的改进($2.8$ 和 $1.6$ BLEU 分数),同时在噪声数据上表现出更高的鲁棒性。
Jun, 2019
深度学习模型中的对抗攻击通过对输入进行微小扰动,从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列(seq2seq)模型的影响,特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略,例如基于梯度的攻击,该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查,我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性,因为输出中的扰动程度与输入中的扰动成正比。然而,在次优方法中,我们的攻击方法优于其他方法,提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。
Sep, 2023
该研究表明,神经机器翻译系统不仅容易受到对抗性测试输入的攻击,而且容易受到训练攻击的影响,作者提出了一种毒化攻击方法,插入带有误导性的毒化样本,从而在神经机器翻译系统训练中引起指定的翻译行为,本文提出了防御方法,但仍需要紧急关注。
Jul, 2021
利用无监督域适应和多受害者集成的方法,攻击者可能会在 NLP API 中超越原始黑盒模型,这是对模型提取以前的理解的超越,验证结果表明模仿者可以在转移领域中成功地胜过原始的黑盒模型,这将影响 API 提供者的防御或发布策略。
Aug, 2021
本研究提出了一种基于字符串编辑的白盒敌手算法,并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现,白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子,并证明在对抗训练中取得了显著的鲁棒性提高。
Jun, 2018
通过基于强化学习的新范例生成对抗性样本,我们对神经机器翻译系统如何失败的情况进行了探究,旨在暴露给定性能度量下的缺陷,我们对两种主流的神经翻译架构,RNN-search 和 Transformer,进行了敌对攻击的实验,结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本,同时,我们还展示了攻击偏好模式的定性和定量分析,证明我们的方法能够暴露神经翻译系统的缺陷。
Nov, 2019
多语言机器翻译系统存在安全漏洞,通过在低资源语言对中注入毒数据,可以在其他语言中引发恶意翻译,攻击成功率达到 20%。这种攻击方式对低资源语言具有更大的攻击面,希望引起人们对机器翻译系统的安全问题的重视,尤其是在低资源语言环境中。
Apr, 2024