具有语义漏洞图的无偏 Transformer 源代码学习

Apr, 2023

具有语义漏洞图的无偏 Transformer 源代码学习

An Unbiased Transformer Source Code Learning with Semantic Vulnerability Graph

Nafis Tanveer Islam, Gonzalo De La Torre Parra, Dylan Manuel, Elias Bou-Harb, Peyman Najafirad

TL;DR提出了一种结合 RoBERTa 模型和 GCN 模型的关于代码漏洞检测的多任务分类器，该模型采用了一个语义性漏洞图来降低偏差，并通过结合 Focal Loss 目标函数降低数据集不平衡的影响。在多个数据集的测试中，该模型表现优异，能够在最好的情况下提高 2.41% 和 18.75% 的检测效果，并且在针对知名 Github 代码库的 N-day 程序样本的测试中表现出 93% 的准确率，能够检测出 4 种零日漏洞。

Abstract

Over the years, open-source software systems have become prey to threat actors. Even as open-source communities act quickly to patch the breach, code vulnerability screening should be an integral part of agile software development from the beginning. Unfortunately, current vulnerabilit

open-source software systems code vulnerability screening machine learning model semantic vulnerability graph vulnerability detection

发现论文，激发创造

用于源代码漏洞识别的顺序图神经网络

本文提出了一个用于帮助开发模型的 C/C++ 源代码漏洞数据集 CVEFunctionGraphEmbeddings（CVEFGE），该数据集是从 CVE 数据库中自动爬取的，并且提出了基于图神经网络的学习框架 SEquential Graph Neural Network（SEGNN）来学习大量的代码语义表示。我们的实验结果表明，SEGNN 在图分类设置中的表现优于两个数据集和四种基线方法。

May, 2023

XGV-BERT：基于上下文化语言模型和图神经网络的高效软件漏洞检测

我们提出了一种名为 XGV-BERT 的框架，结合预训练的 CodeBERT 模型和图神经网络（GCN）来检测软件漏洞，通过联合训练 CodeBERT 和 GCN 模块，该模型利用大规模预训练、通过图卷积学习训练数据的表示，其研究结果表明与 VulDeePecker 和 SySeVR 等现有方法相比，XGV-BERT 方法显著提高了漏洞检测的准确性。

Sep, 2023

基于级联深度学习的源控制流漏洞挖掘

本文介绍使用 Joern 工具和基于源代码控制流的级联深度学习模型 VMCDL, 处理 SARD 数据集中 CWE476、CWE469、CWE516、CWE570 等易受攻击漏洞类型的 C/C++ 源代码数据，以有效检测软件漏洞，对模型算法进行了测试评估，同时给出了特定漏洞的 Joern 测试结果和二分类模型算法的混淆矩阵和标签数据，证明能有效减少静态分析的误报率。

Mar, 2023

Vignat：通过图注意力网络学习代码语义进行漏洞识别

我们提出了一种基于关注机制的新框架 Vignat，用于通过学习代码的语义表示来识别漏洞，结果表明 Vignat 能够在可靠的数据集上实现 57.38% 的准确率，并且图注意力网络提供有价值的漏洞模式洞察。

Oct, 2023

Devign：基于图神经网络学习全面程序语义的有效漏洞识别

提出 Devign，基于图表征学习的图层级分类模型，旨在识别软件系统中的漏洞函数，能够有效地训练和提取代码的语义表示特征。经过广泛的数据集评估，结果表明该模型在准确率和 F1 得分上，明显优于现有技术。

Sep, 2019

使用图神经网络进行语句级漏洞检测 (LineVD)

本研究提出了一种新的深度学习框架 LineVD，通过图神经网络和基于 Transformer 的模型识别程序的特定代码行，取得了 105％的 F1 得分提高，扩展了现有方法在软件漏洞检测方面的应用。

Mar, 2022

VulBERTa：面向漏洞检测的简化源代码预训练

本文提出 VulBERTa，一个基于深度学习的方法，用于检测源代码中的安全漏洞。该方法使用真实的开源 C / C ++ 项目进行预训练，可以学习代码语法和语义的深层知识表示，并通过该表示来训练漏洞检测分类器。实验表明 VulBERTa 在多个数据集和基准测试中均取得了最先进的性能，并在不同数据集上优于现有方法。

May, 2022

双向 Transformer vs. word2vec：发现提升编译代码中的漏洞

利用自然语言处理（NLP）中的 word2vec、BERT 和 RoBERTa 等嵌入技术，通过学习中间表示（LLVM）代码的语义，利用长短期记忆（LSTM）神经网络对 Juliet 数据集中近 118k 个 LLVM 函数的嵌入进行训练，进而检测编译二进制文件中的漏洞。研究结果显示，与复杂的上下文 NLP 嵌入相比，word2vec 连续词袋（CBOW）模型在检测漏洞方面取得了 92.3% 的验证准确率，表明当用来训练双向变压器模型的数据样本数量有限（例如 118K）时，简单的 word2vec 模型在这个任务中可能更有优势。这些比较结果为选择用于学习编译器独立语义代码表示的最佳嵌入提供了新的见解，推动了编译二进制文件中漏洞的机器学习检测的发展。

May, 2024

基于特征工程的神经网络缓冲区溢出漏洞检测

通过机器学习和神经网络模型，使用包括了 GloVe、fastText、LSTM、BiLSTM、LSTM 自编码器、word2vec、BERT 和 GPT2 的语义和句法信息的中间表示来识别函数级别漏洞，其性能表现通过 F1 分数、准确率、召回率、精确度和总执行时间进行评估.

Jun, 2023

代码漏洞识别的多视角预训练模型

本文提出了一种新颖的多视图预训练模型（MV-PTM），用于编码源代码的序列和多类型结构信息，并利用对比学习增强代码表示，实验结果表明 MV-PTM 的优越性，特别是在 F1 分数方面，优于 GraphCodeBERT 平均 3.36%。

Aug, 2022