利用人工智能开发源代码漏洞检测实践实验室
本文提出了一种基于深度学习的方法,通过自然语言处理技术,从 LLVM IR 表示中检测源代码漏洞,并使用层次化处理方法,检测源代码中漏洞所在的代码行,经过在 NVD 和 SARD 中的真实和合成代码的广泛实验,实现了高达 98%的检测准确率。
Nov, 2022
这项研究利用 C/C++ 开源代码,使用机器学习开发了一个基于函数级别的漏洞检测系统,并使用三个定位潜在攻击的静态分析器精心筛选标注了数百万个开源函数的数据集。研究表明深度学习源代码的特征表示法是一种自动化软件漏洞检测的有前途的方法。
Jul, 2018
利用机器学习和深度神经网络,针对 C++ 程序开发了一种基于数据驱动的漏洞检测方法,研究结果表明结合源代码和神经网络特征,可以获得更可靠的漏洞检测结果,最高检测能力达到 0.87。
Feb, 2018
本文旨在总结如何应用机器学习技术进行源代码分析的最新研究动态,并回顾 12 类软件工程任务及相应的机器学习技术、工具和数据集。在文献调研的基础上,文章总结了研究观察和发现,并总结了每个任务的通用步骤、机器学习技术和可用数据集和工具,并讨论了这一领域面临的各种挑战。
Oct, 2021
应用和比较不同的机器学习算法,我们基于 Python 编程语言针对源代码漏洞检测问题进行实验评估并展示出双向长短期记忆(BiLSTM)模型的非凡性能(平均准确率 = 98.6%,平均 F-Score=94.7%,平均精确率 = 96.2%,平均召回率 = 93.3%,平均 ROC=99.3%),从而为 Python 源代码的漏洞检测树立了新的基准。
Apr, 2024
该研究介绍了一种将源代码表示为图像的新方法,可以将其直接输入深度学习算法,以实现漏洞预测,并在公共数据集上进行了性能评估,并与现有最先进解决方案进行比较。
May, 2021
通过深度学习方法及聚类空间对比学习,精准识别程序漏洞中的漏洞相关代码语句,本方法运用于现实数据集上优于其他最新基线算法,显著提高 VCP、VCA、Top-10 ACC 等效果。
Sep, 2022
我们引入了一种多用途的代码漏洞分析系统 SecRepair,由一个大型语言模型 CodeGen2 提供支持,帮助开发人员识别和生成修复后的代码,并附带一个完整的漏洞描述和代码评论。我们的创新方法利用增强学习范式来生成由语义奖励机制增强的代码评论。研究结果强调,将增强学习与语义奖励结合起来,提高了模型在处理代码漏洞方面的能力和效果。
Jan, 2024
本文提出了一个两阶段解决方案,第一阶段采用 CNN 检测源代码是否存在漏洞(二元分类模型),第二阶段采用 CNN-LTSM 将漏洞分类为 50 种不同的漏洞类型(多类分类模型),并针对 SySeVR 数据集进行实验,结果表明第一和第二阶段的准确性分别达到 99% 和 98%。
May, 2023
使用转移学习技术,提出了一种智能自动软件漏洞检测模型,通过使用各种编程语言的代码样本训练卷积神经网络(CNN)模型,并使用可解释人工智能,成功检测出 C 和 Java 代码中的常见漏洞。
Mar, 2023