针对预训练代码模型的自然攻击
CodeAttack 是一个基于代码结构的黑盒攻击模型,检测了最先进的预训练编程语言模型对特定于代码的对抗攻击的脆弱性,并成功地在不同编程语言的多个代码 - 代码和代码 - NL 任务中实现了最佳性能下降。
May, 2022
该研究提出了一种决策式的攻击策略,利用基于人口统计的优化算法,通过仅观察目标模型预测的前一标签,制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比,在高度限制的情况下,成功率更高,被替换单词比例更低。
Dec, 2020
本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架,以验证黑盒子分类器的鲁棒性,并证明该方法可在图像分类,文本蕴含和机器翻译等广泛应用中有效。
Oct, 2017
通过有限的人类对抗样本生成更有用的对抗样本,提高模型鲁棒性,对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势,同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。
Oct, 2023
通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本,不仅能提高情感分析和文本蕴涵模型的错误率,还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试,但未能产生改进,说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。
Apr, 2018
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021
该研究证明神经编程模型易受到对抗性攻击,并介绍了一种新方法 Discrete Adversarial Manipulation of Programs,通过引入微小的扰动来制造对抗性样本,以迫使预训练模型做出不正确的预测,从而攻击训练模型。该方法在三种神经架构:code2vec,GGNN 和 GNN-FiLM 中均可行,对 Java 和 C# 两种语言均适用,并展示了防御模型的各种方法和他们的权衡取舍。
Oct, 2019
本篇论文提出了一种两阶段对抗性样本生成框架(NaturalAdversaries),利用 token attribution 方法和生成模型,生成真实的自然语言文本,可以模拟在实际场景下模型的错误分类情况,概括了当前神经文本分类模型鲁棒性改进方向的研究前景。
Nov, 2022
本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务,并提出了一种攻击策略,通过考虑原始单词及其周围情境的信息来找到候选单词,并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比,我们能够生成高质量的对抗性示例,成功率和单词扰动百分比都有显著提高。
Dec, 2020