关于字符级神经机器翻译的对抗样本
通过基于强化学习的新范例生成对抗性样本,我们对神经机器翻译系统如何失败的情况进行了探究,旨在暴露给定性能度量下的缺陷,我们对两种主流的神经翻译架构,RNN-search 和 Transformer,进行了敌对攻击的实验,结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本,同时,我们还展示了攻击偏好模式的定性和定量分析,证明我们的方法能够暴露神经翻译系统的缺陷。
Nov, 2019
提出了一种改善神经机器翻译模型鲁棒性的方法,该方法包含两个部分:通过对抗性源样本攻击翻译模型,以及通过对抗性目标输入来防御翻译模型,以提高其对抗性源输入的鲁棒性,并通过梯度下降法生成对抗性输入来提高其性能。在中英和英德翻译任务的实验结果表明,在标准的干净基准测试中,我们的方法可以取得显著的改进($2.8$ 和 $1.6$ BLEU 分数),同时在噪声数据上表现出更高的鲁棒性。
Jun, 2019
本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法,其中没有模型信息被公开,攻击者只能查询模型以获得分类器的最终决策,该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。
Aug, 2020
我们提出了 ACT,一种新的针对 NMT 系统的对抗性攻击框架,通过一个分类器对其进行指导,以改变翻译的类别而非仅仅翻译质量,该攻击具有更大的影响力。
Aug, 2023
本研究通过训练一个能够模拟白盒攻击行为的更高效神经网络,证明了白盒攻击优化过程所隐含的知识可以被提取并泛化,可在黑盒情况下攻击 Google Perspective API 并暴露其脆弱性,扰乱 API 的预测结果,而人类对黄金标签的预测准确率仍然很高。
Apr, 2019
本文介绍了一种新的对神经机器翻译(NMT)模型的有针对性对抗攻击方法,目的是插入一个预定义的关键词到对抗性翻译中,同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题,并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明,相比于 Seq2Sick 方法,本攻击方法在成功率和翻译质量降低方面表现更好,攻击成功率超过 75%,同时原始句子和扰动后的句子之间的相似性得以保持。
Mar, 2023
通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本,不仅能提高情感分析和文本蕴涵模型的错误率,还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试,但未能产生改进,说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。
Apr, 2018
提出了一种基于强化学习的方法,在黑盒设置中生成对抗性示例,能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型,并且生成的对抗示例保留了原始文本的语义。
Sep, 2019