Jun, 2024

VulDetectBench:利用大型语言模型评估漏洞检测的深度能力

TL;DR通过创建一个新的基准测试集 VulDetectBench,我们评估了各类大型语言模型在漏洞检测任务中的性能,结果显示现有模型在识别和分类与漏洞相关的任务上可以达到 80% 以上的准确率,但在更复杂的漏洞分析任务上只能达到不到 30% 的准确率,难以为专业漏洞挖掘提供有价值的辅助信息。这个基准测试集为未来代码安全领域的研究和改进提供了基础。