迷失在翻译中：生成鲁棒对圆 - trip 翻译的对抗样本

Jul, 2023

迷失在翻译中：生成鲁棒对圆 - trip 翻译的对抗样本

Lost In Translation: Generating Adversarial Examples Robust to Round-Trip Translation

Neel Bhandari, Pin-Yu Chen

TL;DR通过进行逆序翻译及引入机器翻译，本研究论证了现有文本对抗攻击在翻译回路中的鲁棒性，并证明了翻译鲁棒性的重要性以及其对多语言对抗攻击研究的推动作用。

Abstract

language models today provide a high accuracy across a large number of downstream tasks. However, they remain susceptible to adversarial attacks, particularly against those where the adversarial examples maintain

language models adversarial attacks round-trip translation multilingual machine translation

发现论文，激发创造

机器翻译模型面对敌对攻击表现强劲

深度学习模型中的对抗攻击通过对输入进行微小扰动，从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列（seq2seq）模型的影响，特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略，例如基于梯度的攻击，该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查，我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性，因为输出中的扰动程度与输入中的扰动成正比。然而，在次优方法中，我们的攻击方法优于其他方法，提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。

Sep, 2023

多语种文本分类的生成对抗攻击

通过对多语言释义模型进行敌对目标的微调，我们提出了一种对抗性攻击算法，用于伪造多语言分类器的有效的对抗性样本，实验证明该方法在查询效率方面优于现有基准模型。

Jan, 2024

神经机器翻译增强对抗样本生成

通过基于强化学习的新范例生成对抗性样本，我们对神经机器翻译系统如何失败的情况进行了探究，旨在暴露给定性能度量下的缺陷，我们对两种主流的神经翻译架构，RNN-search 和 Transformer，进行了敌对攻击的实验，结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本，同时，我们还展示了攻击偏好模式的定性和定量分析，证明我们的方法能够暴露神经翻译系统的缺陷。

Nov, 2019

基于双向翻译的生成真实对抗样本方法

利用 Doubly Round-Trip Translation 和 Masked Language Models 构建 NMT 对抗样本，有效提高 NMT 模型的鲁棒性。

Apr, 2022

关于字符级神经机器翻译的对抗样本

本研究提出了一种基于字符串编辑的白盒敌手算法，并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现，白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子，并证明在对抗训练中取得了显著的鲁棒性提高。

Jun, 2018

具有双重对抗输入的稳健神经机器翻译

提出了一种改善神经机器翻译模型鲁棒性的方法，该方法包含两个部分：通过对抗性源样本攻击翻译模型，以及通过对抗性目标输入来防御翻译模型，以提高其对抗性源输入的鲁棒性，并通过梯度下降法生成对抗性输入来提高其性能。在中英和英德翻译任务的实验结果表明，在标准的干净基准测试中，我们的方法可以取得显著的改进（$2.8$ 和 $1.6$ BLEU 分数），同时在噪声数据上表现出更高的鲁棒性。

Jun, 2019

跨语言多语种神经机器翻译中的鲁棒性是否可转移？

研究通过对抗训练和数据增强来提高多语言神经机器翻译模型的稳健性，并探究在多语言翻译中稳健性的可传递性。在多个实验中，我们使用字符级、词级和多级噪声来攻击多语言神经机器翻译模型的特定翻译方向，并评估其他翻译方向的稳健性。我们的研究结果表明，稳健性在一个翻译方向获得的情况下确实可以传递到其他翻译方向，并且实证发现字符级噪声和词级噪声的稳健性更有可能传递。

Oct, 2023

测试时间调整强化语言模型

大规模语言模型在很多语言任务上取得了最先进的性能。然而，它们在针对对抗性语言示例时失败了，这些句子被精心优化以欺骗语言模型，但对人类来说具有类似的语义意义。我们的方法可以动态地适应输入句子并使用屏蔽词的预测结果，从而修复许多语言对抗攻击，而不需要任何训练。在两个流行的句子分类数据集上进行的可视化和实证结果表明，我们的方法能够修复超过 65% 的对抗性语言攻击。

Oct, 2023

往返翻译防御大型语言模型越狱攻击

通过往返翻译（RTT）方法防御大规模语言模型（LLM）上的社会工程攻击，提出了一种多功能、轻量级且可转移的算法，成功缓解了超过 70% 的攻击，并且减少了 MathsAttack 的攻击成功率近 40%。

Feb, 2024

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022