源代码模型的语义鲁棒性
通过稳健优化方法探究神经网络对抗攻击的鲁棒性,设计出对抗攻击和训练模型的可靠方法,提出对于一阶对手的安全保证,并得到针对广泛对抗攻击的高鲁棒性网络模型。
Jun, 2017
该研究证明神经编程模型易受到对抗性攻击,并介绍了一种新方法 Discrete Adversarial Manipulation of Programs,通过引入微小的扰动来制造对抗性样本,以迫使预训练模型做出不正确的预测,从而攻击训练模型。该方法在三种神经架构:code2vec,GGNN 和 GNN-FiLM 中均可行,对 Java 和 C# 两种语言均适用,并展示了防御模型的各种方法和他们的权衡取舍。
Oct, 2019
通过利用深度卷积神经网络生成对抗性样本,然后比较不同的生成技术在产生图像质量和测试机器学习模型鲁棒性方面的差异,最后在跨模型对抗迁移上进行了大规模实验,研究结果表明对抗性样本在相似的网络拓扑间是可传递的,并且更好的机器学习模型更不容易受到对抗性样本的攻击。
Oct, 2016
通过添加一个用于协作训练的对抗样本检测网络和设计一种新的数据采样策略,我们建议了一个简单的架构来构建具有一定鲁棒性的模型,该模型能够适应许多不同的对抗攻击,并针对 Cifar10 dataset 的实验表明这种设计对模型的鲁棒性具有积极影响。
Apr, 2022
深度学习模型中的对抗攻击通过对输入进行微小扰动,从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列(seq2seq)模型的影响,特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略,例如基于梯度的攻击,该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查,我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性,因为输出中的扰动程度与输入中的扰动成正比。然而,在次优方法中,我们的攻击方法优于其他方法,提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。
Sep, 2023