Feb, 2023

TransFool:神经机器翻译模型的对抗攻击

TL;DR本文研究了神经机器翻译模型对对抗攻击的易感性,提出了一种基于多项式优化和梯度投影步骤的攻击算法 TransFool,应用语言模型的嵌入表示生成通顺的源语言对抗样本。实验结果表明,TransFool 能够严重破坏翻译质量,但原文和对抗句子之间的语义相似度仍然很高,并可迁移到未知目标模型。因此,研究表明 NMT 模型的易感性,强调了设计强有力的防御机制和更强健的 NMT 系统的必要性。