使用大型语言模型进行漏洞检测的现状
大规模语言模型 (LLM) 在检测安卓应用的漏洞方面表现出色,通过构建基于人工智能的工作流,能够帮助开发者识别和修复漏洞,并展示其有效性。实验证明,LLMs 在 Ghera 基准测试中能够准确标记不安全应用的案例达到 91.67%。此外,我们的实验还揭示了不同配置对真正阳性(TP)和假阳性(FP)率的影响。
Jan, 2024
通过研究使用大型语言模型(LLMs)在代码审查中的作用,其中包括检测安全漏洞和验证软件功能的有效性,本文发现大型专有模型在这些任务上的性能显著优于小型开源模型,并证明了 LLMs 能够生成与真实漏洞相关的详细描述。
Mar, 2024
在代码语言模型(Code LMs)和漏洞检测不断增长的兴趣下,我们研究了代码语言模型在漏洞检测方面的有效性。研究发现现有漏洞数据集存在重要不足,包括数据质量不高、标签准确性低和重复率高,导致模型在现实漏洞检测场景中的性能不可靠。为解决这些挑战,我们引入了 PrimeVul 数据集,用于训练和评估代码语言模型在漏洞检测方面的性能。通过对 PrimeVul 上的代码语言模型进行评估,发现现有基准明显高估了这些模型的性能。这些发现强调了当前能力和在安全角色中部署代码语言模型的实际需求之间存在的巨大差距,突出了在这一领域需要更多创新的研究。
Mar, 2024
本研究探讨了如何利用基于 transformer 的语言模型来检测软件漏洞,研究了在处理具有多个漏洞的 C/C++ 源代码时,这些模型的性能如何,并发现与当时的双向 LSTM 和双向 GRU 等其他模型相比,这些语言模型在漏洞检测方面具有更好的性能指标。此外,该论文还分析了流行的平台来有效地进行微调,并在选择平台时提供了建议。
Apr, 2022
我们提出了一个名为 LLM4Vuln 的统一评估框架,通过将 LLMs 的漏洞推理能力与其他能力进行分离,并评估结合其他能力的方式来增强 LLMs 的漏洞推理能力。在使用 75 个经过广泛审计的智能合约漏洞进行控制实验的基础上,我们测试了三个代表性的 LLMs(GPT-4,Mixtral 和 Code Llama)在 4950 种不同场景下的表现。我们的结果不仅揭示了关于知识增强、上下文补充、提示方案和模型的变化效果的十个发现,还使我们能够在两个试点的漏洞赏金计划中发现 9 个零日漏洞,并颁发了超过 1,000 美元的奖励。
Jan, 2024
通过综述各种在大型语言模型上攻击的形式及机制,以及其潜在影响和当前的防御策略,该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染,以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果,提供对大型语言模型的脆弱性和防御机制的深入了解,旨在引起人工智能社区的关注,并激发切实解决这些风险的方法。
Mar, 2024