从英雄到零:一项低级对抗攻击基准测试
本篇研究探讨了将文本进行视觉篡改后对 NLP 系统的攻击方法,在字符级别、单词级别和句子级别的任务中,神经模型和非神经模型的性能都会降低高达82%,并研究了三种防御方法——视觉字符嵌入、对抗性训练、基于规则的恢复——这些方法可显著提高模型的鲁棒性,但与攻击未发生时的性能相比仍有一定差距。
Mar, 2019
介绍了一个通过迭代对抗人与模型的程序收集的大规模NLI基准数据集,并展示了训练模型在这个新数据集上将导致在各种流行的NLI基准测试中的最新性能,同时还带来了更困难的挑战。数据收集方法可以在永不停止的学习场景中应用,成为NLU的移动目标,而不是一个很快就会饱和的静态基准测试集。
Oct, 2019
通过分析最先进程序的同义词替换攻击,本文提出了成功自然语言攻击的定义——伪造的文本必须欺骗模型、遵守一些语言约束,并发现其扰动往往不能保持语义,而人类调查表明交换词汇的嵌入和原始/扰动句子的句子编码之间的最小余弦相似性应显著提高以保持有效的语义性和语法性,一旦应用了相应的限制成功率会下降 70%。
Apr, 2020
本研究探索了一种新的文本诱骗攻击方式,使用对人眼不可见的编码特定干扰,攻击了广泛应用于神经机器翻译和网络搜索引擎等自然语言处理系统的文本模型,破坏了系统的性能,提出了输入净化的需求。
Jun, 2021
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过crowdsourcing实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021
本文提出Adversarial GLUE(AdvGLUE)——一个新的多任务基准,系统地将14种文本对抗攻击方法应用于GLUE任务,进一步通过人工验证实现可靠注释,揭示了现代大规模语言模型面对各种类型对抗攻击漏洞的严重性,呼吁对更具隐蔽性和语义保持性的新型对抗攻击和新型强鲁棒性语言模型的发展。
Nov, 2021
本文通过分析n-gram频率解释文本攻击的有效性,提出仅依赖于此信息的模型无偏和梯度自由的对抗样本生成方法,进一步将其整合入凸包框架中以提高模型的鲁棒性。
Feb, 2023
对基于机器学习的自然语言处理模型的对抗攻击存在诸多问题,本研究通过对378个人的实验调查,发现现有文本攻击在需要人类参与的实际场景中是不切实际的,从而得出应该把人类的感知度作为文本攻击的首要成功标准。
May, 2023
通过有限的人类对抗样本生成更有用的对抗样本,提高模型鲁棒性,对抗训练框架在ANLI和仇恨言论检测数据集中展示了其优势,同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。
Oct, 2023
过去十年来,人们对神经网络的鲁棒性进行了广泛的研究,但这个问题依然没有得到很好的解决。在这篇论文中,我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件,同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后,我们通过一个最近提出的防御方法进行演示,展示了在没有针对大型语言模型的最佳实践的情况下,过高估计新方法的鲁棒性的容易性。
Oct, 2023