大型语言模型作为测试用例生成器：性能评估与增强

Apr, 2024

大型语言模型作为测试用例生成器：性能评估与增强

Large Language Models as Test Case Generators: Performance Evaluation and Enhancement

Kefan Li, Yuan Yuan

TL;DR使用大型语言模型（LLMs）生成高质量的测试用例是一个重要问题，目前的研究主要集中在改进代码生成过程中通过 LLMs 生成辅助测试用例的性能，而 LLMs 在仅生成测试用例方面的性能尚未全面研究。为了填补这一空白，本文通过大量实验研究了 LLMs 生成高质量测试用例的能力，并提出了一种名为 TestChain 的多代理框架，通过与 Python 解释器的交互提供更准确的测试输出，实验结果表明 TestChain 在测试用例准确性上明显优于基准模型，其中使用 GPT-4 作为基础的 TestChain 在 LeetCode-hard 数据集上相比基准模型改进了 13.84%。

Abstract

code generation with large language models (llms) has been extensively studied and achieved remarkable progress. As a complementary aspect

code generation test case generation large language models llms testchain

发现论文，激发创造

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

LLM4VV: 为编译器验证开发基于 LLM 的测试套件

探索最新的大型语言模型在代码生成方面的能力，调查提示和微调方法，并分析大型语言模型生成测试的结果。

Oct, 2023

代理代码是最先进的软件测试员

使用大型语言模型的代码代理在形式化用户问题为测试用例方面具有重要能力，并且在生成相关测试用例方面表现出众，尤其是在代码修复方面，生成的测试用例是提出代码修复的一个有效过滤器。

Jun, 2024

使用大型语言模型构建测试用例的案例研究：揭示实践洞见与挑战

本文通过详细的案例研究，探讨了在软件工程背景下，应用大型语言模型（LLMs）构建测试用例的方法。通过定性和定量分析，评估了 LLMs 对测试用例全面性、准确性和效率的影响，并讨论了模型可解释性、伦理考虑和适应不同软件环境的挑战。本研究的结果为软件测试领域中应用 LLMs 提供了实用性见解，旨在促进对 LLMs 在优化软件开发过程中作用的全面理解。

Dec, 2023

偶尔安全性：代码生成助理的比较分析

大型语言模型 (Large Language Models，LLMs) 被广泛应用于各种应用中，代码生成作为一个显著例子。本文聚焦于确定和理解在真实场景中，LLMs 可有效且安全地用于生成高质量代码的条件和环境。通过对四个先进的 LLMs (GPT-3.5 和 GPT-4，ChatGPT，Bard 和 Gemini) 进行比较分析，使用 9 个不同任务评估每个模型的代码生成能力。我们将研究情境化，以代表日常工作中开发人员使用 LLMs 执行常见任务的典型用例。此外，我们强调安全意识，通过使用我们的开发者角色的两个不同版本来表示。总共我们收集了 61 个代码输出并分析了其功能性、安全性、性能、复杂性和可靠性等方面。这些洞见对于理解模型的能力和限制非常重要，并指导未来在自动化代码生成领域的开发和实际应用。

Feb, 2024

CAT-LM: 训练基于对齐的代码和测试的语言模型

CAT-LM 是一个使用 27 亿参数在 Python 和 Java 项目语料库上进行训练的新颖的预训练信号，通过考虑代码和测试文件之间的映射来生成与开发人员相似的测试代码，并且在生成测试完成时比更大的语言模型和最近的测试特定模型表现更好。

Oct, 2023

关于代码生成的大型语言模型调查

基于大规模语言模型的代码生成领域的综述，介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用，对学术与实践之间的差距进行了分析，提出了关键挑战和机遇，并提供了一个资源网站以记录和传播该领域的最新进展。

Jun, 2024

大型语言模型代码生成的鲁棒性和可靠性研究

最近，大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而，对于 LLMs 生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括 1208 个编程问题的数据集 RobustAPI，用于评估 LLMs 生成的代码的可靠性和鲁棒性，并发现甚至对于 GPT-4 而言，62% 的生成代码存在 API 误用，这可能导致意想不到的后果。

Aug, 2023

测试在不同级别的提示特异性下进行的代码生成的 LLMs

评估了各种 LLM 在生成 Python 代码方面的性能，揭示了创建准确的 Python 函数的理想提示策略。

Nov, 2023

低成本语言模型：Python 代码生成的调研及性能评估

我们研究了大型语言模型在生成 Python 代码方面的优势和劣势，并提出了一种引导模型解决问题的思维链条提示，同时还提供了一个由 60 个不同难度级别的编程问题组成的数据集进行评估。

Apr, 2024