黑盒机器翻译系统的模拟攻击与防御
本研究提出了一种基于字符串编辑的白盒敌手算法,并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现,白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子,并证明在对抗训练中取得了显著的鲁棒性提高。
Jun, 2018
通过基于强化学习的新范例生成对抗性样本,我们对神经机器翻译系统如何失败的情况进行了探究,旨在暴露给定性能度量下的缺陷,我们对两种主流的神经翻译架构,RNN-search和Transformer,进行了敌对攻击的实验,结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本,同时,我们还展示了攻击偏好模式的定性和定量分析,证明我们的方法能够暴露神经翻译系统的缺陷。
Nov, 2019
该研究表明,神经机器翻译系统不仅容易受到对抗性测试输入的攻击,而且容易受到训练攻击的影响,作者提出了一种毒化攻击方法,插入带有误导性的毒化样本,从而在神经机器翻译系统训练中引起指定的翻译行为,本文提出了防御方法,但仍需要紧急关注。
Jul, 2021
利用无监督域适应和多受害者集成的方法,攻击者可能会在 NLP API 中超越原始黑盒模型,这是对模型提取以前的理解的超越,验证结果表明模仿者可以在转移领域中成功地胜过原始的黑盒模型,这将影响 API 提供者的防御或发布策略。
Aug, 2021
本文提出一种基于黑盒无梯度的张量优化器的方法,来愚弄俄语和英语的机器翻译系统,其中包含了对神经网络在自然语言处理中的应用、对机器翻译中存在的漏洞的研究以及如何优化这些工具的探讨。
Mar, 2023
我们提出了ACT,一种新的针对NMT系统的对抗性攻击框架,通过一个分类器对其进行指导,以改变翻译的类别而非仅仅翻译质量,该攻击具有更大的影响力。
Aug, 2023
深度学习模型中的对抗攻击通过对输入进行微小扰动,从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列(seq2seq)模型的影响,特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略,例如基于梯度的攻击,该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查,我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性,因为输出中的扰动程度与输入中的扰动成正比。然而,在次优方法中,我们的攻击方法优于其他方法,提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。
Sep, 2023
研究了大型语言模型在机器翻译任务上的指令注入攻击,发现在某些条件下,更大的模型可能更容易受到成功攻击的影响,这是多语言环境下非平凡的语言模型缩放行为研究的首次工作。
Mar, 2024