VulDetectBench：利用大型语言模型评估漏洞检测的深度能力

Jun, 2024

VulDetectBench：利用大型语言模型评估漏洞检测的深度能力

VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models

Yu Liu, Mingxin Yang, Yu Xie, Ping Chen, Xiaojin Zhang...

TL;DR通过创建一个新的基准测试集 VulDetectBench，我们评估了各类大型语言模型在漏洞检测任务中的性能，结果显示现有模型在识别和分类与漏洞相关的任务上可以达到 80% 以上的准确率，但在更复杂的漏洞分析任务上只能达到不到 30% 的准确率，难以为专业漏洞挖掘提供有价值的辅助信息。这个基准测试集为未来代码安全领域的研究和改进提供了基础。

Abstract

large language models (LLMs) have training corpora containing large amounts of program code, greatly improving the model's code comprehension and generation capabilities. However, sound comprehensive research on detecting →

large language models program vulnerabilities benchmark vulnerability detection vuldetectbench

发现论文，激发创造

使用大型语言模型进行漏洞检测的现状

通过实验发现，一些 LLM 在漏洞检测方面超越传统深度学习方法，揭示了 LLM 在加强软件安全方面的潜力。

Nov, 2023

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024

使用代码语言模型进行漏洞检测：我们离目标还有多远？

在代码语言模型（Code LMs）和漏洞检测不断增长的兴趣下，我们研究了代码语言模型在漏洞检测方面的有效性。研究发现现有漏洞数据集存在重要不足，包括数据质量不高、标签准确性低和重复率高，导致模型在现实漏洞检测场景中的性能不可靠。为解决这些挑战，我们引入了 PrimeVul 数据集，用于训练和评估代码语言模型在漏洞检测方面的性能。通过对 PrimeVul 上的代码语言模型进行评估，发现现有基准明显高估了这些模型的性能。这些发现强调了当前能力和在安全角色中部署代码语言模型的实际需求之间存在的巨大差距，突出了在这一领域需要更多创新的研究。

Mar, 2024

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

LLM4Vuln：提升和解耦 LLMS 漏洞推理的统一评估框架

我们提出了一个名为 LLM4Vuln 的统一评估框架，通过将 LLMs 的漏洞推理能力与其他能力进行分离，并评估结合其他能力的方式来增强 LLMs 的漏洞推理能力。在使用 75 个经过广泛审计的智能合约漏洞进行控制实验的基础上，我们测试了三个代表性的 LLMs（GPT-4，Mixtral 和 Code Llama）在 4950 种不同场景下的表现。我们的结果不仅揭示了关于知识增强、上下文补充、提示方案和模型的变化效果的十个发现，还使我们能够在两个试点的漏洞赏金计划中发现 9 个零日漏洞，并颁发了超过 1,000 美元的奖励。

Jan, 2024

LLbezpeky：利用大型语言模型进行漏洞检测

大规模语言模型 (LLM) 在检测安卓应用的漏洞方面表现出色，通过构建基于人工智能的工作流，能够帮助开发者识别和修复漏洞，并展示其有效性。实验证明，LLMs 在 Ghera 基准测试中能够准确标记不安全应用的案例达到 91.67%。此外，我们的实验还揭示了不同配置对真正阳性（TP）和假阳性（FP）率的影响。

Jan, 2024

通过多任务指令微调增强泛化的代码漏洞检测

Code Pre-trained Models (CodePTMs) based vulnerability detection struggles to generalize as they typically learn superficial mapping from source code to labels, resulting in poor performance in real-world scenarios. To address this, VulLLM integrates multi-task learning with Large Language Models (LLMs) to effectively mine deep-seated vulnerability features, surpassing seven state-of-the-art models in terms of effectiveness, generalization, and robustness.

Jun, 2024

为漏洞检测优化大型语言模型

本论文研究了使用大型语言模型进行源代码漏洞检测的结果，通过微调最先进的语言模型 WizardCoder，并在训练过程中进行了加速，通过处理类别不平衡问题，优化训练过程和方法，并在困难的漏洞检测数据集上改善性能，展示了通过微调大型预训练语言模型进行源代码分析任务的迁移学习的潜力。

Jan, 2024

AutoDetect: 面向大型语言模型的自动弱点检测统一框架

通过 AutoDetect 框架对大型语言模型进行自动检测，能够发现模型的弱点并指导改进，提高 LLMs 的性能。

Jun, 2024