大型语言模型在完成可能存在漏洞的代码上表现不佳

Jun, 2023

大型语言模型在完成可能存在漏洞的代码上表现不佳

Large Language Models of Code Fail at Completing Code with Potential Bugs

Tuan Dinh, Jinman Zhao, Samson Tan, Renato Negrinho, Leonard Lausen...

TL;DR介绍和研究有潜在 bug 的代码补全问题，引入两个数据集，发现潜在 bug 显著降低 Code-LLMs 的性能，调查了几种后处理方法，但效果有限。

Abstract

Large language models of code (code-llms) have recently brought tremendous advances to code completion, a fundamental feature of programming assistance and code intelligence. However, most existing works ignore the possible presence of bugs in the code context for generation, which are

code-llms buggy-code completion anti-patterns synthetic bugs realistic bugs

发现论文，激发创造

大型语言模型生成代码中的错误

这篇研究报告分析了使用三个主要大型语言模型（CodeGen、PanGu-Coder 和 Codex）生成的代码中的 333 个错误模式，并通过在线调查得到了 34 位使用大型语言模型的从业人员和研究人员对这些错误模式的重要性和普遍性的确认。研究人员和从业人员可以利用这些发现来开发有效的大型语言模型生成代码的质量保证技术。该研究揭示了大型语言模型生成代码的独特特征。

Mar, 2024

语言模型通过代码对分类成为更好的缺陷检测器

大型语言模型能够通过代码生成和理解任务进行细粒度调整，而上下文学习技术在缺陷检测和修补中表现出色。本论文提出了代码对分类任务，其中模型接收有缺陷和无缺陷版本的代码对，从中识别出有缺陷的版本。实验证明，与判断代码片段中是否存在缺陷及其位置相比，大型语言模型更容易识别出有缺陷的代码对。

Nov, 2023

DeepCode AI Fix: 用大型语言模型修复安全漏洞

使用大型语言模型的程序修复任务中，通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集，我们的系统能够在更少的案例中准确匹配人工修复，并显著提升可用模型的性能。

Feb, 2024

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

大型语言模型代码生成的鲁棒性和可靠性研究

最近，大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而，对于 LLMs 生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括 1208 个编程问题的数据集 RobustAPI，用于评估 LLMs 生成的代码的可靠性和鲁棒性，并发现甚至对于 GPT-4 而言，62% 的生成代码存在 API 误用，这可能导致意想不到的后果。

Aug, 2023

代码堆栈中的错误：大规模 Python 代码堆栈中的错误能被 LLMs 发现吗

针对在大型代码环境中评估大语言模型（LLMs）性能的研究，我们设计了一个评估简单语法错误能力的基准测试框架（BICS），研究发现代码环境对检索任务提出了更大的挑战，并且不同模型之间存在明显的性能差异，同时代码长度与性能降低之间有显著的相关性，尽管降低程度在不同模型之间有所不同。

Jun, 2024

从自然语言问题描述生成功能正确的代码编辑

本文提出了将自然语言编程描述翻译为正确代码修改的任务 NL2Fix，为此引入了包含高级 Bug 修复描述的 Defects4J-NL2Fix 数据集，并对多种最先进的 LLMs 进行了实证评估，结果表明这些 LLMs 能够对 64.6% 的错误生成合理的修复，并且最佳 LLM 技术在此基准测试中可以达到 21.20% 的 top-1 和 35.68% 的 top-5 精度。

Apr, 2023

代码智能模型中的陷阱：分类与调查

通过对现有研究的综述和分类研究，我们发现了语言模型在代码智能方面的潜在问题和挑战，并提出了相应的解决方案，以构建可靠的针对代码智能的语言模型。

Oct, 2023

代码补全的语言模型：实践评估

基于 Transformer 的语言模型在自动代码补全方面显示出巨大的潜力，但是这些模型的评估很少使用真实数据。本研究提供了对三个公共代码语言模型在完成真实世界代码时的定量和定性评估。

Feb, 2024