使用代码语言模型进行漏洞检测：我们离目标还有多远？

Mar, 2024

使用代码语言模型进行漏洞检测：我们离目标还有多远？

Vulnerability Detection with Code Language Models: How Far Are We?

Yangruibo Ding, Yanjun Fu, Omniyyah Ibrahim, Chawin Sitawarin, Xinyun Chen...

TL;DR在代码语言模型（Code LMs）和漏洞检测不断增长的兴趣下，我们研究了代码语言模型在漏洞检测方面的有效性。研究发现现有漏洞数据集存在重要不足，包括数据质量不高、标签准确性低和重复率高，导致模型在现实漏洞检测场景中的性能不可靠。为解决这些挑战，我们引入了 PrimeVul 数据集，用于训练和评估代码语言模型在漏洞检测方面的性能。通过对 PrimeVul 上的代码语言模型进行评估，发现现有基准明显高估了这些模型的性能。这些发现强调了当前能力和在安全角色中部署代码语言模型的实际需求之间存在的巨大差距，突出了在这一领域需要更多创新的研究。

Abstract

In the context of the rising interest in code language models (code LMs) and vulnerability detection, we study the effectiveness of code LMs for detecting vulnerabilities. Our analysis reveals significant shortco

code language models vulnerability detection data quality evaluation methods primevul dataset

发现论文，激发创造

VulDetectBench：利用大型语言模型评估漏洞检测的深度能力

通过创建一个新的基准测试集 VulDetectBench，我们评估了各类大型语言模型在漏洞检测任务中的性能，结果显示现有模型在识别和分类与漏洞相关的任务上可以达到 80% 以上的准确率，但在更复杂的漏洞分析任务上只能达到不到 30% 的准确率，难以为专业漏洞挖掘提供有价值的辅助信息。这个基准测试集为未来代码安全领域的研究和改进提供了基础。

Jun, 2024

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024

使用大型语言模型进行漏洞检测的现状

通过实验发现，一些 LLM 在漏洞检测方面超越传统深度学习方法，揭示了 LLM 在加强软件安全方面的潜力。

Nov, 2023

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024

通过多任务指令微调增强泛化的代码漏洞检测

Code Pre-trained Models (CodePTMs) based vulnerability detection struggles to generalize as they typically learn superficial mapping from source code to labels, resulting in poor performance in real-world scenarios. To address this, VulLLM integrates multi-task learning with Large Language Models (LLMs) to effectively mine deep-seated vulnerability features, surpassing seven state-of-the-art models in terms of effectiveness, generalization, and robustness.

Jun, 2024

加强大型语言模型进行安全代码生成：基于数据集的漏洞缓解研究

大型语言模型（LLMs）在代码生成方面取得了显著进展，但它们的训练使用了来自开源代码库（如 GitHub）的未经筛选的数据，存在意外传播安全漏洞的风险。为了有效地减轻这一问题，本文从软件安全的角度对代码 LLMs 进行了全面研究，并提出了 SecuCoGen 数据集，用于评估和增强代码 LLMs 的安全性能。研究结果发现，现有模型在代码生成中经常忽视安全问题，提出了有效的方法来解决安全漏洞，并提高代码的整体稳健性。此外，研究还发现现有模型在修复漏洞代码方面存在问题，并且某些漏洞类型对模型构成挑战。基于这些发现，我们相信本研究将对软件工程社区产生积极影响，激发改进 LLMs 训练和使用方法的开发，从而实现更安全、更可信的模型部署。

Oct, 2023

为漏洞检测优化大型语言模型

本论文研究了使用大型语言模型进行源代码漏洞检测的结果，通过微调最先进的语言模型 WizardCoder，并在训练过程中进行了加速，通过处理类别不平衡问题，优化训练过程和方法，并在困难的漏洞检测数据集上改善性能，展示了通过微调大型预训练语言模型进行源代码分析任务的迁移学习的潜力。

Jan, 2024

DeepCode AI Fix: 用大型语言模型修复安全漏洞

使用大型语言模型的程序修复任务中，通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集，我们的系统能够在更少的案例中准确匹配人工修复，并显著提升可用模型的性能。

Feb, 2024

DiverseVul：一个新的深度学习漏洞检测漏洞源代码数据集

提出并发布了一个新的易受攻击源代码数据集，通过获取安全问题网站、提取缺陷修复提交和相应项目的源代码进行数据处理。使用此数据集与先前数据集相结合，研究使用深度学习检测软件漏洞的挑战和未来研究方向。同时，研究发现大型语言模型是未来漏洞检测的方向，在检测性能上优于手动特征工程的图神经网络。

Apr, 2023

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024