基于变异的一致性测试用于评估 LLMs 的代码理解能力

Jan, 2024

基于变异的一致性测试用于评估 LLMs 的代码理解能力

Mutation-based Consistency Testing for Evaluating the Code Understanding Capability of LLMs

Ziyu Li, Donghwan Shin

TL;DR我们提出了一种评估 Large Language Models（LLMs）代码理解性能的新方法，通过引入代码变异来检测 LLMs 对代码和自然语言描述之间微妙差异的能力，并在各种代码变异和编程语言上对两个常见的 LLMs 进行了案例研究，发现它们在代码理解性能上存在显著的差异。

Abstract

large language models (llms) have shown remarkable capabilities in processing both natural and programming languages, which have enabled various applications in software engineering, such as requirement engineeri

large language models code understanding performance code mutations inconsistencies llms

发现论文，激发创造

使用变形提示测试验证 LLM 生成的程序

我们提出了一种称为变质提示测试的新颖解决方案，用于解决由大型语言模型生成的代码质量和正确性所引发的挑战，并在 HumanEval 评估中显示，该方法能够检测到由 GPT-4 生成的错误程序的 75％，误报率为 8.6％。

Jun, 2024

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

通过基于变异的置信度平滑增强大型语言模型的故障检测

现有的故障检测方法在大型语言模型上表现不佳，因此我们提出了一种名为 MuCS 的基于提示变异的预测置信度平滑方法，该方法能显著提升现有方法在测试覆盖率上的改进达到 97.64%。

Apr, 2024

大型语言模型代码生成的鲁棒性和可靠性研究

最近，大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而，对于 LLMs 生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括 1208 个编程问题的数据集 RobustAPI，用于评估 LLMs 生成的代码的可靠性和鲁棒性，并发现甚至对于 GPT-4 而言，62% 的生成代码存在 API 误用，这可能导致意想不到的后果。

Aug, 2023

大型语言模型中的编码风格一致性研究

通过实证分析编码生成的主要模型（LLMs）和人类开发者的编码风格不一致，总结编码风格的不一致分类法，并对可行性、简洁性和健壮性进行比较，揭示 LLMs 和开发者具有不同的编码风格，并研究这些不一致的可能原因并提供解决方案。

Jun, 2024

LLM4VV: 为编译器验证开发基于 LLM 的测试套件

探索最新的大型语言模型在代码生成方面的能力，调查提示和微调方法，并分析大型语言模型生成测试的结果。

Oct, 2023

大型语言模型作为测试用例生成器：性能评估与增强

使用大型语言模型（LLMs）生成高质量的测试用例是一个重要问题，目前的研究主要集中在改进代码生成过程中通过 LLMs 生成辅助测试用例的性能，而 LLMs 在仅生成测试用例方面的性能尚未全面研究。为了填补这一空白，本文通过大量实验研究了 LLMs 生成高质量测试用例的能力，并提出了一种名为 TestChain 的多代理框架，通过与 Python 解释器的交互提供更准确的测试输出，实验结果表明 TestChain 在测试用例准确性上明显优于基准模型，其中使用 GPT-4 作为基础的 TestChain 在 LeetCode-hard 数据集上相比基准模型改进了 13.84%。

Apr, 2024

大型语言模型对代码语义理解的能力的实证研究

EMPICA 是一种全面的框架，旨在系统和实证地评估代码 LLMs 在理解代码语义方面的能力，并揭示了当前代码 LLMs 在代码转换和语义保留方面的鲁棒性和敏感性的差异。

Jul, 2024

CAT-LM: 训练基于对齐的代码和测试的语言模型

CAT-LM 是一个使用 27 亿参数在 Python 和 Java 项目语料库上进行训练的新颖的预训练信号，通过考虑代码和测试文件之间的映射来生成与开发人员相似的测试代码，并且在生成测试完成时比更大的语言模型和最近的测试特定模型表现更好。

Oct, 2023

利用大型语言模型增强遗传改造突变

通过评估大型语言模型在基因改进中作为突变操作的使用，我们发现基于大型语言模型的编辑补丁与标准插入编辑相比，单元测试通过的补丁数量高出 75％，补丁的多样性较低。虽然大量改进的补丁是通过大型语言模型增强的基因改进找到的，但最佳改进补丁是通过标准的基因改进找到的。

Oct, 2023