利用自然语言扰动进行逼真的对抗攻击和防御
本文提出了一种包含人为写作的扰动,用于评估社交媒体上毒性发言检测模型的效果,并测试了该测试集在深度学习 (BERT 和 RoBERTa) 和黑盒 API(如 Perspective API)上的表现,结果表明带有真实人为扰动的对抗攻击仍然有效。
Mar, 2023
通过有限的人类对抗样本生成更有用的对抗样本,提高模型鲁棒性,对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势,同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。
Oct, 2023
本文提出了一种新的对抗攻击策略,旨在找到与原始文本相似度极高的对抗文本,同时引入最小扰动;实验结果表明,与现有攻击方法相比,我们的方法在四个基准数据集上的成功率更高,扰动率更低。
Nov, 2022
利用机器学习模型对文章进行自动生成的大语言模型,在知识产权保护、个人隐私和学术诚信方面引发了关注。AI 文本检测系统目前存在鲁棒性不足和难以有效区分扰动文本的问题。本研究通过模拟真实场景,评估当前检测模型在实际应用中的性能,并构建了 12 种黑盒文本扰动方法来评估检测模型的鲁棒性。此外,通过对抗学习实验,研究扰动数据增强对 AI 文本检测器鲁棒性的影响。
Jun, 2024
在本文中,通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索,利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析,发现 PWWS 攻击是最强大的对手,在多个评估场景中始终优于其他方法,从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验,评估了这些攻击的性能,并发现 PWWS 攻击优于其他方法,具有更低的运行时间、更高的准确性和更好的语义相似度得分,这是这篇论文的关键见解。
Apr, 2024
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021
本文提出一种简单却强大的文本对抗生成基准,名为 TextFooler. 在两个自然语言任务中将其应用,成功攻击了三个目标模型,包括强大的预训练 BERT 和广泛使用的卷积和循环神经网络。该框架具备以下三个优点:有效性,实用性和高效性。
Jul, 2019
提出了一种有效的 SemAttack 框架,在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本,可针对包括大规模 LM 和防御策略在内的对抗方法,适用于不同语言的对抗生成,而人评结果表明生成出的对抗文本自然,几乎不影响人类的表现。
May, 2022
本文提出了一种使用 deobfuscation 和 CW2V 嵌入的强健分类管道,用于检测 Facebook 帖子是否请求参与(例如点赞)。在针对有意和无意的对抗文本扰动方面,CW2V 嵌入的强健性优于基于字符 ngram 的嵌入,其分类结果在扰动下的 AUC 从 0.70 降至 0.67,而字符 ngram 嵌入的分类结果从 0.76 降至 0.64。
Feb, 2022
在本文中,我们提出了一个针对更广泛的对抗性攻击类别的框架,旨在对机器生成的内容进行微小扰动以逃避检测,通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现,现有的检测模型可以在仅 10 秒内受到破坏,将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进,但实际应用仍面临重大挑战,这些发现为 AI 文本检测器的未来发展提供了启示,强调了对更准确和鲁棒的检测方法的需求。
Apr, 2024