迷失在翻译中:生成鲁棒对圆 - trip 翻译的对抗样本
深度学习模型中的对抗攻击通过对输入进行微小扰动,从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列(seq2seq)模型的影响,特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略,例如基于梯度的攻击,该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查,我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性,因为输出中的扰动程度与输入中的扰动成正比。然而,在次优方法中,我们的攻击方法优于其他方法,提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。
Sep, 2023
通过对多语言释义模型进行敌对目标的微调,我们提出了一种对抗性攻击算法,用于伪造多语言分类器的有效的对抗性样本,实验证明该方法在查询效率方面优于现有基准模型。
Jan, 2024
通过基于强化学习的新范例生成对抗性样本,我们对神经机器翻译系统如何失败的情况进行了探究,旨在暴露给定性能度量下的缺陷,我们对两种主流的神经翻译架构,RNN-search 和 Transformer,进行了敌对攻击的实验,结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本,同时,我们还展示了攻击偏好模式的定性和定量分析,证明我们的方法能够暴露神经翻译系统的缺陷。
Nov, 2019
利用 Doubly Round-Trip Translation 和 Masked Language Models 构建 NMT 对抗样本,有效提高 NMT 模型的鲁棒性。
Apr, 2022
本研究提出了一种基于字符串编辑的白盒敌手算法,并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现,白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子,并证明在对抗训练中取得了显著的鲁棒性提高。
Jun, 2018
提出了一种改善神经机器翻译模型鲁棒性的方法,该方法包含两个部分:通过对抗性源样本攻击翻译模型,以及通过对抗性目标输入来防御翻译模型,以提高其对抗性源输入的鲁棒性,并通过梯度下降法生成对抗性输入来提高其性能。在中英和英德翻译任务的实验结果表明,在标准的干净基准测试中,我们的方法可以取得显著的改进($2.8$ 和 $1.6$ BLEU 分数),同时在噪声数据上表现出更高的鲁棒性。
Jun, 2019
研究通过对抗训练和数据增强来提高多语言神经机器翻译模型的稳健性,并探究在多语言翻译中稳健性的可传递性。在多个实验中,我们使用字符级、词级和多级噪声来攻击多语言神经机器翻译模型的特定翻译方向,并评估其他翻译方向的稳健性。我们的研究结果表明,稳健性在一个翻译方向获得的情况下确实可以传递到其他翻译方向,并且实证发现字符级噪声和词级噪声的稳健性更有可能传递。
Oct, 2023
大规模语言模型在很多语言任务上取得了最先进的性能。然而,它们在针对对抗性语言示例时失败了,这些句子被精心优化以欺骗语言模型,但对人类来说具有类似的语义意义。我们的方法可以动态地适应输入句子并使用屏蔽词的预测结果,从而修复许多语言对抗攻击,而不需要任何训练。在两个流行的句子分类数据集上进行的可视化和实证结果表明,我们的方法能够修复超过 65% 的对抗性语言攻击。
Oct, 2023
通过往返翻译(RTT)方法防御大规模语言模型(LLM)上的社会工程攻击,提出了一种多功能、轻量级且可转移的算法,成功缓解了超过 70% 的攻击,并且减少了 MathsAttack 的攻击成功率近 40%。
Feb, 2024
针对预训练语言模型容易受到对抗攻击的问题,提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强,能够有效地弥补其他防御方法的不足,同时本研究也揭示了文本对抗攻击的本质,并提出了应该加强对谨慎攻击方法的研究。
Jul, 2022