D2A: 使用差分分析建立的供基于人工智能漏洞检测方法使用的数据集

Feb, 2021

D2A: 使用差分分析建立的供基于人工智能漏洞检测方法使用的数据集

D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis

Yunhui Zheng, Saurabh Pujar, Burn Lewis, Luca Buratti, Edward Epstein...

TL;DR通过差分分析，建立一个新的数据集 D2A，并利用机器学习对静态分析工具生成的漏洞报告进行分类，从而辅助开发人员优先调查和处理真实存在的问题。

Abstract

static analysis tools are widely used for vulnerability detection as they understand programs with complex behavior and millions of lines of code. Despite their popularity, →

static analysis machine learning vulnerability detection differential analysis dataset

发现论文，激发创造

DiverseVul：一个新的深度学习漏洞检测漏洞源代码数据集

提出并发布了一个新的易受攻击源代码数据集，通过获取安全问题网站、提取缺陷修复提交和相应项目的源代码进行数据处理。使用此数据集与先前数据集相结合，研究使用深度学习检测软件漏洞的挑战和未来研究方向。同时，研究发现大型语言模型是未来漏洞检测的方向，在检测性能上优于手动特征工程的图神经网络。

Apr, 2023

基于机器学习的自动化软件漏洞检测

利用机器学习和深度神经网络，针对 C++ 程序开发了一种基于数据驱动的漏洞检测方法，研究结果表明结合源代码和神经网络特征，可以获得更可靠的漏洞检测结果，最高检测能力达到 0.87。

Feb, 2018

DeepDFA: 基于数据流分析的高效图学习用于漏洞检测

本文提出了一种深度学习与程序数据流分析相结合的漏洞检测框架 ——DeepDFA，该框架基于程序语义特征和图学习技术来检测漏洞，可以在短时间内训练出高效、精准的漏洞检测模型，与其他模型相结合可以提高漏洞检测的性能。

Dec, 2022

ActiveClean: 通过主动学习生成基于行级漏洞数据

通过使用 ActiveClean 生成大规模的行级漏洞数据，并提出基于主动学习的方法，该方法利用语义和句法属性进行模型训练，同时通过清理数据提高了 LineVul 的准确性和性能。

Dec, 2023

基于两阶段深度学习模型的漏洞检测

本文提出了一个两阶段解决方案，第一阶段采用 CNN 检测源代码是否存在漏洞（二元分类模型），第二阶段采用 CNN-LTSM 将漏洞分类为 50 种不同的漏洞类型（多类分类模型），并针对 SySeVR 数据集进行实验，结果表明第一和第二阶段的准确性分别达到 99% 和 98%。

May, 2023

漏洞修复的多粒度检测器

MiDas 是一个用于检测软件组合分析工具中存在的漏洞的多粒度检测器，利用不同的神经网络检测代码变更的不同粒度，通过将所有基础模型合并的组合模型生成最终的预测。对于 Java 和基于 Python 的数据集，MiDas 在 AUC 方面优于当前最先进的基线 4.9％和 13.7％。此外，在 EffortCost@L 和 Popt@L 等关键指标上，MiDas 还取得了显着的改进。

May, 2023

从数据中学习静态分析器

本文提出了一种自动化的方法来创建静态分析器，通过从数据集中学习推理规则，实现了针对 JavaScript 静态分析规则的学习，该方法包括综合算法和反例指导的学习程序，并能够发现手动标定的分析器无法识别的实用推理规则。

Nov, 2016

基于源代码表示的分布式深度集成学习的物联网终端漏洞挖掘系统（DCDetector）

本研究提出了利用分布式深度集成学习模型检测 C/C++ 等高级编程语言源代码漏洞的方法，并采用敏感语句相关的切片来对源代码进行建模。实验结果表明，该方法可以有效地分析大规模漏洞数据并降低传统静态分析的误报率。

Nov, 2022

基于深度学习的漏洞检测：我们到达了吗？

探讨了利用深度学习进行漏洞检测的现有技术面临的软件安全领域中高误报、高漏报且性能损失严重的问题，通过收集真实的训练数据和优化模型设计，实现了更好的自动化漏洞预测解决方案，取得了显著优于现有最好模型的预测性能。

Sep, 2020

使用深度表示学习自动检测源代码中的漏洞

这项研究利用 C/C++ 开源代码，使用机器学习开发了一个基于函数级别的漏洞检测系统，并使用三个定位潜在攻击的静态分析器精心筛选标注了数百万个开源函数的数据集。研究表明深度学习源代码的特征表示法是一种自动化软件漏洞检测的有前途的方法。

Jul, 2018