Feb, 2023
TransFool:神经机器翻译模型的对抗攻击
TransFool: An Adversarial Attack against Neural Machine Translation
Models
TL;DR本文研究了神经机器翻译模型对对抗攻击的易感性,提出了一种基于多项式优化和梯度投影步骤的攻击算法TransFool,应用语言模型的嵌入表示生成通顺的源语言对抗样本。实验结果表明,TransFool能够严重破坏翻译质量,但原文和对抗句子之间的语义相似度仍然很高,并可迁移到未知目标模型。因此,研究表明NMT模型的易感性,强调了设计强有力的防御机制和更强健的NMT系统的必要性。