Apr, 2023

具有语义漏洞图的无偏 Transformer 源代码学习

TL;DR提出了一种结合 RoBERTa 模型和 GCN 模型的关于代码漏洞检测的多任务分类器,该模型采用了一个语义性漏洞图来降低偏差,并通过结合 Focal Loss 目标函数降低数据集不平衡的影响。在多个数据集的测试中,该模型表现优异,能够在最好的情况下提高 2.41% 和 18.75% 的检测效果,并且在针对知名 Github 代码库的 N-day 程序样本的测试中表现出 93% 的准确率,能够检测出 4 种零日漏洞。