语言模型是否学习了代码的语义？漏洞检测案例研究

Nov, 2023

语言模型是否学习了代码的语义？漏洞检测案例研究

Do Language Models Learn Semantics of Code? A Case Study in Vulnerability Detection

Benjamin Steenhoek, Md Mahbubur Rahman, Shaila Sharmin, Wei Le

TL;DR通过解释性工具、关注分析和交互矩阵分析，我们发现预训练语言模型对于潜在脆弱语句的关联性表现更好，但其对于脆弱路径的关联性较弱甚至没有，基于我们的分析，我们开发了两种突出模型输入中含有错误语义的注释方法，实验结果显示与传统微调相比，在大多数情况下我们的注释方法能够提高模型性能，并使模型与潜在脆弱语句的关联性提高高达 232%，这表明提供模型有关错误语义的信息是有帮助的并且激发了后续针对学习更复杂基于路径的错误语义的研究。

Abstract

Recently, pretrained language models have shown state-of-the-art performance on the vulnerability detection task. These models are pretrained on a large corpus of source code, then fine-tuned on a smaller supervi

pretrained language models vulnerability detection bug semantics alignment annotation methods

发现论文，激发创造

探究代码语言模型的学习内容

本研究旨在探究预训练语言模型的能力，在超越表面频率和共现之外理解代码的意义，结果表明该模型能够学习代码的计算语义。

Jun, 2023

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024

使用代码语言模型进行漏洞检测：我们离目标还有多远？

在代码语言模型（Code LMs）和漏洞检测不断增长的兴趣下，我们研究了代码语言模型在漏洞检测方面的有效性。研究发现现有漏洞数据集存在重要不足，包括数据质量不高、标签准确性低和重复率高，导致模型在现实漏洞检测场景中的性能不可靠。为解决这些挑战，我们引入了 PrimeVul 数据集，用于训练和评估代码语言模型在漏洞检测方面的性能。通过对 PrimeVul 上的代码语言模型进行评估，发现现有基准明显高估了这些模型的性能。这些发现强调了当前能力和在安全角色中部署代码语言模型的实际需求之间存在的巨大差距，突出了在这一领域需要更多创新的研究。

Mar, 2024

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024

基于 Transformer 的语言模型用于软件漏洞检测

本研究探讨了如何利用基于 transformer 的语言模型来检测软件漏洞，研究了在处理具有多个漏洞的 C/C++ 源代码时，这些模型的性能如何，并发现与当时的双向 LSTM 和双向 GRU 等其他模型相比，这些语言模型在漏洞检测方面具有更好的性能指标。此外，该论文还分析了流行的平台来有效地进行微调，并在选择平台时提供了建议。

Apr, 2022

DeepCode AI Fix: 用大型语言模型修复安全漏洞

使用大型语言模型的程序修复任务中，通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集，我们的系统能够在更少的案例中准确匹配人工修复，并显著提升可用模型的性能。

Feb, 2024

预训练语言模型对源代码的结构分析

此篇论文分析了预训练语言模型，尤其是 CodeBERT 和 GraphCodeBERT 对源代码的结构性质，通过对注意力分析，词嵌入的探索和语法树归纳等方面进行全面分析，揭示出了一些深入的发现，为今后的相关研究提供了启示。

Feb, 2022

理解代码语义：Transformer 模型在摘要中的评估

这篇论文通过使用先进的基于变压器的语言模型深入研究了代码摘要。通过实证研究，我们改变函数和变量名称来评估代码摘要的效果，以探索模型是否真正理解代码语义或仅依赖于文本线索。我们还引入了死代码和注释代码等对抗性实验，覆盖了 Python、Javascript 和 Java 三种编程语言，进一步审查模型的理解能力。最终，我们的研究旨在提供有关基于变压器的语言模型内部工作方式的有价值见解，增强其理解代码的能力，并为更高效的软件开发实践和维护工作流做出贡献。

Oct, 2023

语言模型通过代码对分类成为更好的缺陷检测器

大型语言模型能够通过代码生成和理解任务进行细粒度调整，而上下文学习技术在缺陷检测和修补中表现出色。本论文提出了代码对分类任务，其中模型接收有缺陷和无缺陷版本的代码对，从中识别出有缺陷的版本。实验证明，与判断代码片段中是否存在缺陷及其位置相比，大型语言模型更容易识别出有缺陷的代码对。

Nov, 2023

编程语言和自然语言的对齐：探索多模态变换器嵌入在缺陷定位中的设计选择

通过评估 14 个不同的嵌入模型并开发相应的漏洞定位模型，我们的研究表明，预训练策略显著影响嵌入质量，并且嵌入模型对数据的熟悉程度对漏洞定位模型的性能有着显著影响。当训练数据和测试数据来自不同的项目时，漏洞定位模型的性能会出现大幅波动。

Jun, 2024