STRATA: 适用于代码模型的简单、无梯度攻击
该研究证明神经编程模型易受到对抗性攻击,并介绍了一种新方法 Discrete Adversarial Manipulation of Programs,通过引入微小的扰动来制造对抗性样本,以迫使预训练模型做出不正确的预测,从而攻击训练模型。该方法在三种神经架构:code2vec,GGNN 和 GNN-FiLM 中均可行,对 Java 和 C# 两种语言均适用,并展示了防御模型的各种方法和他们的权衡取舍。
Oct, 2019
CodeAttack 是一个基于代码结构的黑盒攻击模型,检测了最先进的预训练编程语言模型对特定于代码的对抗攻击的脆弱性,并成功地在不同编程语言的多个代码 - 代码和代码 - NL 任务中实现了最佳性能下降。
May, 2022
本文提出了一种基于黑盒技术的新型对抗样本攻击方法,针对原始图像最小化 l0 距离。实验证明,该攻击方法优于或与现有技术相当。同时,我们可引入部件约束来提高分类器对稀疏和不可察觉的对抗性操纵的鲁棒性。
Sep, 2019
本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架,以验证黑盒子分类器的鲁棒性,并证明该方法可在图像分类,文本蕴含和机器翻译等广泛应用中有效。
Oct, 2017
本文提出了一种针对代码模型的黑盒对抗攻击方法 ALERT,通过在保留原始输入的基础上考虑代码的自然语义,使得对抗样本更符合人类判断,并在三项下游任务中取得了高攻击成功率,最后对对抗性微调的效果进行了研究。
Jan, 2022
通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本,不仅能提高情感分析和文本蕴涵模型的错误率,还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试,但未能产生改进,说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。
Apr, 2018
本文提出了一种基于梯度的对抗攻击方法,应用于基于 Transformer 的文本分类器中,实验结果表明,该攻击能够在保留句子语义的同时,对不同数据集上的 GPT-2 分类器准确率进行有效降低,通过对优化问题进行块稀疏约束,实现了对抗向量的小幅扰动。
Mar, 2022
本文介绍了一种用于生成自然语言对抗性样本的几何灵感攻击方法,该攻击通过迭代逼近深度神经网络(DNNs)的决策边界生成对抗性样本,并实验证明该攻击方法可以快速欺骗自然语言模型,并表明对抗训练可以提高模型对我们的攻击方法的鲁棒性。
Oct, 2020