一种基于分类引导的对神经机器翻译的对抗性攻击方法
本文研究一种新的神经机器翻译学习范式,即采用对抗训练模型进行最小化差异的方式来指导模型学习,此模型被命名为 Adversarial-NMT。实验结果表明,Adversarial-NMT性能显著高于强基线模型,并能够实现更高质量的翻译。
Apr, 2017
本研究提出了一种基于字符串编辑的白盒敌手算法,并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现,白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子,并证明在对抗训练中取得了显著的鲁棒性提高。
Jun, 2018
本篇论文研究了NMT系统在源语句中进行多次更改时的表现,并提出了基于软性关注力技术的单词替换方法,对英德和英法两种语言对进行实验,结果表明现有技术无法捕捉源语言的语义,提出的软性关注力技术是一种不变性基攻击,可通过备选指标更好地评估这种攻击。
Aug, 2019
本文研究了神经机器翻译模型对对抗攻击的易感性,提出了一种基于多项式优化和梯度投影步骤的攻击算法TransFool,应用语言模型的嵌入表示生成通顺的源语言对抗样本。实验结果表明,TransFool能够严重破坏翻译质量,但原文和对抗句子之间的语义相似度仍然很高,并可迁移到未知目标模型。因此,研究表明NMT模型的易感性,强调了设计强有力的防御机制和更强健的NMT系统的必要性。
Feb, 2023
本文介绍了一种新的对神经机器翻译(NMT)模型的有针对性对抗攻击方法,目的是插入一个预定义的关键词到对抗性翻译中,同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题,并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明,相比于 Seq2Sick 方法,本攻击方法在成功率和翻译质量降低方面表现更好,攻击成功率超过 75%,同时原始句子和扰动后的句子之间的相似性得以保持。
Mar, 2023
本篇研究探讨了针对神经机器翻译(NMT)系统的对抗性攻击,通过输出感知角度考虑潜在的攻击方式,实验结果表明NMT系统输出序列的情感感知可以被显著改变。
May, 2023
深度学习模型中的对抗攻击通过对输入进行微小扰动,从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列(seq2seq)模型的影响,特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略,例如基于梯度的攻击,该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查,我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性,因为输出中的扰动程度与输入中的扰动成正比。然而,在次优方法中,我们的攻击方法优于其他方法,提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。
Sep, 2023
该论文首次发现了现有NMT定向对抗攻击设置中的关键问题,并提出了一种可靠的NMT定向对抗攻击新设置。基于该新设置,本文提出了一种称为TWGA方法的定向词梯度对抗攻击方法,证明所提出的设置能够提供准确的攻击结果,并且该方法能够有效攻击受害的NMT系统。对大规模数据集的详细分析进一步揭示了一些有价值的发现。
Jul, 2024
本研究针对神经机器翻译(NMT)模型的脆弱性,提出了一种新型的对抗攻击方法。研究者通过在两个句子之间插入一个词,使得第二个句子在翻译中被忽略,从而能够在实践中隐藏恶意信息。实验结果表明,超过50%的情况下,各种NMT模型对这种攻击都表现出脆弱性,且能维持较低的困惑度。
Nov, 2024