针对预训练代码模型的自然攻击

Jan, 2022

Natural Attack for Pre-trained Models of Code

Zhou Yang, Jieke Shi, Junda He, David Lo

TL;DR本文提出了一种针对代码模型的黑盒对抗攻击方法 ALERT，通过在保留原始输入的基础上考虑代码的自然语义，使得对抗样本更符合人类判断，并在三项下游任务中取得了高攻击成功率，最后对对抗性微调的效果进行了研究。

Abstract

pre-trained models of code have achieved success in many important software engineering tasks. However, these powerful models are vulnerable to adversarial attacks that slightly perturb model inputs to make a victim model produce wrong outputs. Current works mainly attack models of cod

adversarial attacks code models naturalness requirement alert pre-trained models

发现论文，激发创造

CodeAttack：预训练编程语言模型的基于代码的对抗性攻击

CodeAttack 是一个基于代码结构的黑盒攻击模型，检测了最先进的预训练编程语言模型对特定于代码的对抗攻击的脆弱性，并成功地在不同编程语言的多个代码 - 代码和代码 - NL 任务中实现了最佳性能下降。

May, 2022

在硬标签黑盒设置中生成自然语言攻击

该研究提出了一种决策式的攻击策略，利用基于人口统计的优化算法，通过仅观察目标模型预测的前一标签，制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比，在高度限制的情况下，成功率更高，被替换单词比例更低。

Dec, 2020

生成自然对抗样本

本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Oct, 2017

破解、模仿、修复：通过生成人类攻击提高鲁棒性

通过有限的人类对抗样本生成更有用的对抗样本，提高模型鲁棒性，对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势，同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。

Oct, 2023

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

代码模型对抗性样本

该研究证明神经编程模型易受到对抗性攻击，并介绍了一种新方法 Discrete Adversarial Manipulation of Programs，通过引入微小的扰动来制造对抗性样本，以迫使预训练模型做出不正确的预测，从而攻击训练模型。该方法在三种神经架构：code2vec，GGNN 和 GNN-FiLM 中均可行，对 Java 和 C# 两种语言均适用，并展示了防御模型的各种方法和他们的权衡取舍。

Oct, 2019

自然对手：自然对手是否能像人工对手一样有效？

本篇论文提出了一种两阶段对抗性样本生成框架（NaturalAdversaries），利用 token attribution 方法和生成模型，生成真实的自然语言文本，可以模拟在实际场景下模型的错误分类情况，概括了当前神经文本分类模型鲁棒性改进方向的研究前景。

Nov, 2022

STRATA: 适用于代码模型的简单、无梯度攻击

通过建立令牌频率统计与学习令牌嵌入之间的关系，我们构建了一种简单有效的无梯度方法，用于对代码模型生成最先进的对抗性示例。

Sep, 2020

生成自然语言攻击的上下文感知方法

本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务，并提出了一种攻击策略，通过考虑原始单词及其周围情境的信息来找到候选单词，并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比，我们能够生成高质量的对抗性示例，成功率和单词扰动百分比都有显著提高。

Dec, 2020