深度学习的漏洞检测

May, 2024

Vulnerability Detection with Deep Learning

Zhen Huang, Amy Aumpansub

TL;DR通过使用来自 C/C++ 程序源代码中提取的程序切片训练神经网络，我们可以检测软件漏洞并获得 92.49% 的准确率。

Abstract

deep learning has been shown to be a promising tool in detecting software vulnerabilities. In this work, we train neural networks with program sl

deep learning software vulnerabilities neural networks program slices source code

发现论文，激发创造

基于机器学习的自动化软件漏洞检测

利用机器学习和深度神经网络，针对 C++ 程序开发了一种基于数据驱动的漏洞检测方法，研究结果表明结合源代码和神经网络特征，可以获得更可靠的漏洞检测结果，最高检测能力达到 0.87。

Feb, 2018

使用深度表示学习自动检测源代码中的漏洞

这项研究利用 C/C++ 开源代码，使用机器学习开发了一个基于函数级别的漏洞检测系统，并使用三个定位潜在攻击的静态分析器精心筛选标注了数百万个开源函数的数据集。研究表明深度学习源代码的特征表示法是一种自动化软件漏洞检测的有前途的方法。

Jul, 2018

DiverseVul：一个新的深度学习漏洞检测漏洞源代码数据集

提出并发布了一个新的易受攻击源代码数据集，通过获取安全问题网站、提取缺陷修复提交和相应项目的源代码进行数据处理。使用此数据集与先前数据集相结合，研究使用深度学习检测软件漏洞的挑战和未来研究方向。同时，研究发现大型语言模型是未来漏洞检测的方向，在检测性能上优于手动特征工程的图神经网络。

Apr, 2023

一种基于层次深度神经网络的代码漏洞检测方法

本文提出了一种基于深度学习的方法，通过自然语言处理技术，从 LLVM IR 表示中检测源代码漏洞，并使用层次化处理方法，检测源代码中漏洞所在的代码行，经过在 NVD 和 SARD 中的真实和合成代码的广泛实验，实现了高达 98％的检测准确率。

Nov, 2022

基于两阶段深度学习模型的漏洞检测

本文提出了一个两阶段解决方案，第一阶段采用 CNN 检测源代码是否存在漏洞（二元分类模型），第二阶段采用 CNN-LTSM 将漏洞分类为 50 种不同的漏洞类型（多类分类模型），并针对 SySeVR 数据集进行实验，结果表明第一和第二阶段的准确性分别达到 99% 和 98%。

May, 2023

编程语言之间的软件漏洞预测知识转移

使用转移学习技术，提出了一种智能自动软件漏洞检测模型，通过使用各种编程语言的代码样本训练卷积神经网络（CNN）模型，并使用可解释人工智能，成功检测出 C 和 Java 代码中的常见漏洞。

Mar, 2023

基于深度学习的漏洞检测：我们到达了吗？

探讨了利用深度学习进行漏洞检测的现有技术面临的软件安全领域中高误报、高漏报且性能损失严重的问题，通过收集真实的训练数据和优化模型设计，实现了更好的自动化漏洞预测解决方案，取得了显著优于现有最好模型的预测性能。

Sep, 2020

基于特征工程的神经网络缓冲区溢出漏洞检测

通过机器学习和神经网络模型，使用包括了 GloVe、fastText、LSTM、BiLSTM、LSTM 自编码器、word2vec、BERT 和 GPT2 的语义和句法信息的中间表示来识别函数级别漏洞，其性能表现通过 F1 分数、准确率、召回率、精确度和总执行时间进行评估.

Jun, 2023

基于信息论和对比学习的方法，识别导致软件漏洞的代码语句

通过深度学习方法及聚类空间对比学习，精准识别程序漏洞中的漏洞相关代码语句，本方法运用于现实数据集上优于其他最新基线算法，显著提高 VCP、VCA、Top-10 ACC 等效果。

Sep, 2022

Python 源代码漏洞检测的机器学习技术

应用和比较不同的机器学习算法，我们基于 Python 编程语言针对源代码漏洞检测问题进行实验评估并展示出双向长短期记忆（BiLSTM）模型的非凡性能（平均准确率 = 98.6%，平均 F-Score=94.7%，平均精确率 = 96.2%，平均召回率 = 93.3%，平均 ROC=99.3%），从而为 Python 源代码的漏洞检测树立了新的基准。

Apr, 2024