STRATA: 适用于代码模型的简单、无梯度攻击

KDDSep, 2020

STRATA: 适用于代码模型的简单、无梯度攻击

STRATA: Simple, Gradient-Free Attacks for Models of Code

Jacob M. Springer, Bryn Marie Reinstadler, Una-May O'Reilly

TL;DR通过建立令牌频率统计与学习令牌嵌入之间的关系，我们构建了一种简单有效的无梯度方法，用于对代码模型生成最先进的对抗性示例。

Abstract

neural networks are well-known to be vulnerable to imperceptible perturbations in the input, called adversarial examples, that result in misclassification. Generating →

neural networks adversarial examples source code token frequency statistics gradient-free method

发现论文，激发创造

源代码模型的语义鲁棒性

研究表明，在源代码模型中，深度神经网络容易受到对代码功能保留的参数语义程序转换序列引起的对抗性示例的影响，我们发现对抗性训练可以显著提高模型的鲁棒性。

Feb, 2020

代码模型对抗性样本

该研究证明神经编程模型易受到对抗性攻击，并介绍了一种新方法 Discrete Adversarial Manipulation of Programs，通过引入微小的扰动来制造对抗性样本，以迫使预训练模型做出不正确的预测，从而攻击训练模型。该方法在三种神经架构：code2vec，GGNN 和 GNN-FiLM 中均可行，对 Java 和 C# 两种语言均适用，并展示了防御模型的各种方法和他们的权衡取舍。

Oct, 2019

CodeAttack：预训练编程语言模型的基于代码的对抗性攻击

CodeAttack 是一个基于代码结构的黑盒攻击模型，检测了最先进的预训练编程语言模型对特定于代码的对抗攻击的脆弱性，并成功地在不同编程语言的多个代码 - 代码和代码 - NL 任务中实现了最佳性能下降。

May, 2022

稀疏且不易察觉的对抗攻击

本文提出了一种基于黑盒技术的新型对抗样本攻击方法，针对原始图像最小化 l0 距离。实验证明，该攻击方法优于或与现有技术相当。同时，我们可引入部件约束来提高分类器对稀疏和不可察觉的对抗性操纵的鲁棒性。

Sep, 2019

生成自然对抗样本

本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Oct, 2017

针对预训练代码模型的自然攻击

本文提出了一种针对代码模型的黑盒对抗攻击方法 ALERT，通过在保留原始输入的基础上考虑代码的自然语义，使得对抗样本更符合人类判断，并在三项下游任务中取得了高攻击成功率，最后对对抗性微调的效果进行了研究。

Jan, 2022

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

针对基于 Transformer 的文本分类器的块状稀疏对抗攻击

本文提出了一种基于梯度的对抗攻击方法，应用于基于 Transformer 的文本分类器中，实验结果表明，该攻击能够在保留句子语义的同时，对不同数据集上的 GPT-2 分类器准确率进行有效降低，通过对优化问题进行块稀疏约束，实现了对抗向量的小幅扰动。

Mar, 2022

代码的对抗鲁棒性

本文探讨神经模型在代码领域中的敌对鲁棒性问题，通过实例化针对代码的对抗攻击，并结合现有和新技术提高模型鲁棒性，同时保持高准确性。

Feb, 2020

一种基于几何形态的攻击方法，用于生成自然语言对抗样本

本文介绍了一种用于生成自然语言对抗性样本的几何灵感攻击方法，该攻击通过迭代逼近深度神经网络（DNNs）的决策边界生成对抗性样本，并实验证明该攻击方法可以快速欺骗自然语言模型，并表明对抗训练可以提高模型对我们的攻击方法的鲁棒性。

Oct, 2020