使用对抗学习进行源代码的误导性作者归属
本文介绍了 SHIELD,对六种当前最先进的作者归属方法进行攻击后的实验,通过在 Google Code Jam 竞赛中利用 200 个编程者数据集,从非有目标攻击和有目标攻击两个方向对不同的代码归属提取技术进行了实验,发现现有的作者归属方法对抗攻击的脆弱性,并对攻击成功率和身份识别信任度的影响进行了分析。
Apr, 2023
介绍了一种新的语言无关的源代码作者归属方法,并提出了一种更好地反映软件工程潜在实际应用方面的数据收集方法,指出现有合成数据集在现实数据上的验证精度下降很多,提出了下一步设计和评估作者归属模型的方向。
Jan, 2020
这篇论文介绍了 AuthAttLyzer-V2,它是一种新的源代码特征提取器,用于源代码作者归属的确定,重点关注词法、语义、句法和 N-gram 特征。论文通过对来自 3,000 个作者的 24,000 个源代码样本进行研究,结合 Random Forest、Gradient Boosting 和 XGBoost 模型来识别个体编码样式,提供了有关代码作者独特属性的洞察。对于恶意软件分类来说,这种方法对于理解和解释作者归属中的复杂模式至关重要。
Jun, 2024
这篇论文提出了一种基于深度学习的代码作者归属度量的新框架 RoPGen,该框架结合了数据增强和梯度增强在对抗训练阶段,在四个 C、C++、Java 编写的程序数据集上进行测试,并显著提高了 DL-based 代码作者归属度量的鲁棒性。
Feb, 2022
通过简单的监督式学习实验平台,发现在 CIFAR-10 和 MNIST 数据集中,可以区分使用不同攻击算法、模型和超参数生成的对抗攻击,并介绍了对抗攻击归因的概念。
Jan, 2021
通过从可执行二进制文件中获得的一组新颖的特征,我们成功地从程序员的角度研究了机器学习的程序员去匿名化,我们使用源代码作者的归属、汇编风格等技巧,并在来自 Google Code Jam 的数据上评估了我们的方法,在 100 位程序员中获得高达 96%的准确度。因此,我们首次进行了可执行二进制文件属性归因,并表明程序员需要采取极端措施来保护其隐私。
Dec, 2015
探究基于机器学习的恶意软件检测模型的安全性,使用 Transformers-based 恶意软件检测器进行对抗攻击,提出防御策略,将错误分类率降至一半。
Oct, 2022