代码堆栈中的错误：大规模 Python 代码堆栈中的错误能被 LLMs 发现吗

Jun, 2024

代码堆栈中的错误：大规模 Python 代码堆栈中的错误能被 LLMs 发现吗

Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks

Hokyung Lee, Sumanyu Sharma, Bing Hu

TL;DR针对在大型代码环境中评估大语言模型（LLMs）性能的研究，我们设计了一个评估简单语法错误能力的基准测试框架（BICS），研究发现代码环境对检索任务提出了更大的挑战，并且不同模型之间存在明显的性能差异，同时代码长度与性能降低之间有显著的相关性，尽管降低程度在不同模型之间有所不同。

Abstract

Recent research in Needle-in-a-Haystack (NIAH) benchmarks has explored the capabilities of large language models (llms) in retrieving contextual information from large text documents. However, as →

needle-in-a-haystack benchmarks large language models llms code-based environments syntax bugs

发现论文，激发创造

大型语言模型在完成可能存在漏洞的代码上表现不佳

介绍和研究有潜在 bug 的代码补全问题，引入两个数据集，发现潜在 bug 显著降低 Code-LLMs 的性能，调查了几种后处理方法，但效果有限。

Jun, 2023

语言模型通过代码对分类成为更好的缺陷检测器

大型语言模型能够通过代码生成和理解任务进行细粒度调整，而上下文学习技术在缺陷检测和修补中表现出色。本论文提出了代码对分类任务，其中模型接收有缺陷和无缺陷版本的代码对，从中识别出有缺陷的版本。实验证明，与判断代码片段中是否存在缺陷及其位置相比，大型语言模型更容易识别出有缺陷的代码对。

Nov, 2023

大型语言模型生成代码中的错误

这篇研究报告分析了使用三个主要大型语言模型（CodeGen、PanGu-Coder 和 Codex）生成的代码中的 333 个错误模式，并通过在线调查得到了 34 位使用大型语言模型的从业人员和研究人员对这些错误模式的重要性和普遍性的确认。研究人员和从业人员可以利用这些发现来开发有效的大型语言模型生成代码的质量保证技术。该研究揭示了大型语言模型生成代码的独特特征。

Mar, 2024

程序分析指南：与大型语言模型的旅程

使用 LLM 辅助静态分析进行识别 use-before-initialization（UBI）错误的研究通过设计 LLift 代理和提示来克服多个挑战，测试结果表明在实际场景中具有非常强大的能力，并发现了 Linux 内核中以前未知的 13 个 UBI 错误，为使用 LLM 在大规模现实世界数据集中发现错误的新方法和机会铺平了道路。

Aug, 2023

DeepCode AI Fix: 用大型语言模型修复安全漏洞

使用大型语言模型的程序修复任务中，通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集，我们的系统能够在更少的案例中准确匹配人工修复，并显著提升可用模型的性能。

Feb, 2024

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024

探索大型语言模型用于代码解释

使用各种大型语言模型自动生成代码片段的自然语言摘要，研究结果表明，代码语言模型优于其通用模型，而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。

Oct, 2023

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024