基于数据驱动的对抗文本扰动缓解
本文提出了一种包含人为写作的扰动,用于评估社交媒体上毒性发言检测模型的效果,并测试了该测试集在深度学习 (BERT 和 RoBERTa) 和黑盒 API(如 Perspective API)上的表现,结果表明带有真实人为扰动的对抗攻击仍然有效。
Mar, 2023
提出了一种通过多种敌对扰动方法修复文本,使神经网络能够正确分类的方法,经实验证明,该方法可对约 80%的文本进行修复,并且取决于使用的扰动方法,平均修复一条文本的时间仅需一秒。
Dec, 2021
在本文中,通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索,利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析,发现 PWWS 攻击是最强大的对手,在多个评估场景中始终优于其他方法,从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验,评估了这些攻击的性能,并发现 PWWS 攻击优于其他方法,具有更低的运行时间、更高的准确性和更好的语义相似度得分,这是这篇论文的关键见解。
Apr, 2024
本文提出了一种新的对抗攻击策略,旨在找到与原始文本相似度极高的对抗文本,同时引入最小扰动;实验结果表明,与现有攻击方法相比,我们的方法在四个基准数据集上的成功率更高,扰动率更低。
Nov, 2022
本文对英语和中文文本领域的生成对抗性文本的对抗攻击和防御方法进行了全面的调查,并基于干扰单位对现有的对抗技术进行分类,从不同的自然语言处理任务的视角介绍了对抗技术,并从根源上探讨了领域中对抗攻击和防御的挑战和未来研究方向。
Feb, 2019
本文介绍了使用随机扰动来对抗深度学习模型的攻击的解决方案,包括随机拼写纠正、随机同义词替换和随机删除单词等防御方法。这些方法成功地将被攻击的模型的准确性恢复到攻击之前的水平。
Feb, 2022
在本文中,我们提出了一个针对更广泛的对抗性攻击类别的框架,旨在对机器生成的内容进行微小扰动以逃避检测,通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现,现有的检测模型可以在仅 10 秒内受到破坏,将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进,但实际应用仍面临重大挑战,这些发现为 AI 文本检测器的未来发展提供了启示,强调了对更准确和鲁棒的检测方法的需求。
Apr, 2024
本篇研究探讨了将文本进行视觉篡改后对 NLP 系统的攻击方法,在字符级别、单词级别和句子级别的任务中,神经模型和非神经模型的性能都会降低高达 82%,并研究了三种防御方法 —— 视觉字符嵌入、对抗性训练、基于规则的恢复 —— 这些方法可显著提高模型的鲁棒性,但与攻击未发生时的性能相比仍有一定差距。
Mar, 2019
本文介绍了一种有效的方法来生成文本对抗样本,证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本,可以识别用于分类的文本信息,基于这些信息,设计了三种扰动策略(插入、修改、删除)来生成对抗样本。实验表明,基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器,并且可以扰动到任意的分类类别而不影响其实用性,同时所引入的扰动难以被发现。
Apr, 2017