不可察觉的自然语言处理攻击
对基于机器学习的自然语言处理模型的对抗攻击存在诸多问题,本研究通过对 378 个人的实验调查,发现现有文本攻击在需要人类参与的实际场景中是不切实际的,从而得出应该把人类的感知度作为文本攻击的首要成功标准。
May, 2023
本篇研究探讨了将文本进行视觉篡改后对 NLP 系统的攻击方法,在字符级别、单词级别和句子级别的任务中,神经模型和非神经模型的性能都会降低高达 82%,并研究了三种防御方法 —— 视觉字符嵌入、对抗性训练、基于规则的恢复 —— 这些方法可显著提高模型的鲁棒性,但与攻击未发生时的性能相比仍有一定差距。
Mar, 2019
本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法,其中没有模型信息被公开,攻击者只能查询模型以获得分类器的最终决策,该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。
Aug, 2020
本研究提出了一种基于字符串编辑的白盒敌手算法,并在字符级别神经机器翻译模型中使用两种新类型的攻击来比较黑盒和白盒对抗例子的强度。该研究发现,白盒对抗例子在不同的攻击场景中都会显著强于黑盒对抗例子,并证明在对抗训练中取得了显著的鲁棒性提高。
Jun, 2018
在本文中,通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索,利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析,发现 PWWS 攻击是最强大的对手,在多个评估场景中始终优于其他方法,从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验,评估了这些攻击的性能,并发现 PWWS 攻击优于其他方法,具有更低的运行时间、更高的准确性和更好的语义相似度得分,这是这篇论文的关键见解。
Apr, 2024
本文介绍了两种黑匣子攻击方法,一种是将字符随机替换为了形似字,另一种是故意拼错单词,受攻击的神经文本检测器从 97.44%降至 0.26%和 22.68%,攻击也可转移至其他文本检测器。
Feb, 2020
本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制,提出了一种攻击和防御机制针对对话系统,能够自动触发系统生成毒性语言,同时保持谈话流畅度,并证明了该防御机制不仅有效避免了毒性语言生成,而且可以推广到对话系统之外的语言生成模型。
May, 2022
在本文中,我们提出了一个针对更广泛的对抗性攻击类别的框架,旨在对机器生成的内容进行微小扰动以逃避检测,通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现,现有的检测模型可以在仅 10 秒内受到破坏,将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进,但实际应用仍面临重大挑战,这些发现为 AI 文本检测器的未来发展提供了启示,强调了对更准确和鲁棒的检测方法的需求。
Apr, 2024
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021