使用对抗学习进行源代码的误导性作者归属

May, 2019

使用对抗学习进行源代码的误导性作者归属

Misleading Authorship Attribution of Source Code using Adversarial Learning

Erwin Quiring, Alwin Maier, Konrad Rieck

TL;DR本文介绍了一种针对源代码作者归属的新型攻击方法，通过一系列基于蒙特卡洛树的语义保持的代码转换，可以误导基于机器学习的代码归属分析，并对两种最新的归属方法的准确率造成了巨大的影响，表明当前的代码作者归属方法不适用于实际应用，需要更加强大的技术。

Abstract

In this paper, we present a novel attack against authorship attribution of source code. We exploit that recent attribution methods rest on machine learning and thus can be deceived by →

authorship attribution source code machine learning adversarial examples monte-carlo tree search

发现论文，激发创造

SHIELD: 阻止代码署名归属

本文介绍了 SHIELD，对六种当前最先进的作者归属方法进行攻击后的实验，通过在 Google Code Jam 竞赛中利用 200 个编程者数据集，从非有目标攻击和有目标攻击两个方向对不同的代码归属提取技术进行了实验，发现现有的作者归属方法对抗攻击的脆弱性，并对攻击成功率和身份识别信任度的影响进行了分析。

Apr, 2023

源代码归属作者辨识：一种语言不可知的方法及其在软件工程中的适用性

介绍了一种新的语言无关的源代码作者归属方法，并提出了一种更好地反映软件工程潜在实际应用方面的数据收集方法，指出现有合成数据集在现实数据上的验证精度下降很多，提出了下一步设计和评估作者归属模型的方向。

Jan, 2020

一个女孩有一个名字，它是... 对抗性作者归属破解

对作者省略的问题提出了对抗性威胁的解决方案，该方案通过对抗式训练，在考虑到对抗训练的情况下提高了作者认证方法的鲁棒性。

Mar, 2022

源代码模型的语义鲁棒性

研究表明，在源代码模型中，深度神经网络容易受到对代码功能保留的参数语义程序转换序列引起的对抗性示例的影响，我们发现对抗性训练可以显著提高模型的鲁棒性。

Feb, 2020

AuthAttLyzer-V2: 通过增强集成学习模型揭示代码创作归属性和生成基准数据集

这篇论文介绍了 AuthAttLyzer-V2，它是一种新的源代码特征提取器，用于源代码作者归属的确定，重点关注词法、语义、句法和 N-gram 特征。论文通过对来自 3,000 个作者的 24,000 个源代码样本进行研究，结合 Random Forest、Gradient Boosting 和 XGBoost 模型来识别个体编码样式，提供了有关代码作者独特属性的洞察。对于恶意软件分类来说，这种方法对于理解和解释作者归属中的复杂模式至关重要。

Jun, 2024

RoPGen：通过自动编码风格转换实现鲁棒的代码作者归属

这篇论文提出了一种基于深度学习的代码作者归属度量的新框架 RoPGen，该框架结合了数据增强和梯度增强在对抗训练阶段，在四个 C、C++、Java 编写的程序数据集上进行测试，并显著提高了 DL-based 代码作者归属度量的鲁棒性。

Feb, 2022

对抗攻击归因：发现对抗机器学习攻击中的可归因信号

通过简单的监督式学习实验平台，发现在 CIFAR-10 和 MNIST 数据集中，可以区分使用不同攻击算法、模型和超参数生成的对抗攻击，并介绍了对抗攻击归因的概念。

Jan, 2021

代码的对抗鲁棒性

本文探讨神经模型在代码领域中的敌对鲁棒性问题，通过实例化针对代码的对抗攻击，并结合现有和新技术提高模型鲁棒性，同时保持高准确性。

Feb, 2020

编码风格在编译后的生存：从可执行文件中去匿名化程序员

通过从可执行二进制文件中获得的一组新颖的特征，我们成功地从程序员的角度研究了机器学习的程序员去匿名化，我们使用源代码作者的归属、汇编风格等技巧，并在来自 Google Code Jam 的数据上评估了我们的方法，在 100 位程序员中获得高达 96％的准确度。因此，我们首次进行了可执行二进制文件属性归因，并表明程序员需要采取极端措施来保护其隐私。

Dec, 2015

基于 Transformer 的恶意软件检测器的对抗性攻击

探究基于机器学习的恶意软件检测模型的安全性，使用 Transformers-based 恶意软件检测器进行对抗攻击，提出防御策略，将错误分类率降至一半。

Oct, 2022