激励代码解释器在 Quixbugs 函数上编写更好的单元测试

Sep, 2023

激励代码解释器在 Quixbugs 函数上编写更好的单元测试

Prompting Code Interpreter to Write Better Unit Tests on Quixbugs Functions

Vincent Li, Nick Doiron

TL;DR本研究探讨了通过改变提示方式对由基于 GPT-4 的 Code Interpreter 生成的 Python 函数单元测试质量的影响，并发现其生成的单元测试质量对于提示中的细节变化不敏感，但其能够有效地识别和纠正自动生成的代码中的错误，同时建议为其提供可运行的代码以检查输出正确性。

Abstract

unit testing is a commonly-used approach in software engineering to test the correctness and robustness of written code. Unit tests are tests designed to test small components of a codebase in isolation, such as an individual function or method. Although unit tests have historically be

unit testing automatic unit test generation code interpreter prompts quixbugs dataset

发现论文，激发创造

代码生成中使用的提示的质量评估

评估大型语言模型在代码生成方面的效果时，需要使用健全的基准测试，而不严谨的评估基准会提供虚假的性能表现。本研究分析了 9 个代码生成基准中的 3,566 个提示，以确定其中的质量问题，并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于 Python 和编码练习，且缺乏上下文依赖关系，同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高 Python 代码生成的性能，但对 Java 代码生成的改进不明显。此外，还发现 GPT-3.5-Turbo 和 CodeGen-2.5 模型可能存在数据污染问题。

Apr, 2024

代码感知提示：在使用 LLM 进行回归设置下的覆盖率引导测试生成研究

对测试生成的向搜索引擎软件测试方法（Search Based Software Testing，SBST）进行了改进，使用大型语言模型（LLMs）和 SymPrompt 自动生成更全面的测试案例，提高测试质量与覆盖率。

Jan, 2024

用于提高 LLMs 代码可靠性的目标验证问题链

通过自我完善方法，在没有人工介入和测试用例的情况下，通过针对初始代码中的特定节点使用目标验证问题（VQs），提高 LLM 生成代码的可靠性，并通过针对特定的 VQs 和初始代码重新提示 LLM 来修复潜在的漏洞。评估结果表明，我们的方法优于现有方法，减少了代码中目标错误的数量达到 21% 至 62%，同时提高了可执行代码实例的数量达到 13%。

May, 2024

测试在不同级别的提示特异性下进行的代码生成的 LLMs

评估了各种 LLM 在生成 Python 代码方面的性能，揭示了创建准确的 Python 函数的理想提示策略。

Nov, 2023

利用生成式人工智能进行单元测试生成：自动化生成工具性能比较分析

通过实验研究了使用大型语言模型（LLMs）ChatGPT 在 Python 程序中生成单元测试脚本的有效性，发现它在覆盖率方面与 Pynguin 相当，但在生成测试用例方面优于 Pynguin；此外，发现 ChatGPT 能够提供更好的测试覆盖率，此外通过优化 ChatGPT 的提示工程，可在某些情况下提高覆盖率。

Dec, 2023

探究大型语言模型在生成单元测试中的效果

该研究探讨了三种代码生成模型（CodeGen、Codex 和 GPT-3.5）在单元测试生成中的效果，发现 Codex 模型在 HumanEval 数据集中可以达到 80% 以上的覆盖率，但在 EvoSuite SF110 基准测试中，没有模型的覆盖率超过 2% 且生成的测试代码存在多种测试异味问题。

Apr, 2023

探索代码提示的奇妙案例

我们研究了使用编程提示和文本提示对三种流行的 GPT 模型 (davinci、code-davinci-002 和 text-davinci-002) 在更广泛的任务选择 (例如 QA、情感、摘要) 中的表现，结果表明，在很少例外的情况下，编程提示并没有始终优于文本提示。同时，我们还展示了代码提示的样式对某些但不是所有任务的性能有很大的影响，并且微调文本指令可以提高代码提示的相对性能。

Apr, 2023

使用变形提示测试验证 LLM 生成的程序

我们提出了一种称为变质提示测试的新颖解决方案，用于解决由大型语言模型生成的代码质量和正确性所引发的挑战，并在 HumanEval 评估中显示，该方法能够检测到由 GPT-4 生成的错误程序的 75％，误报率为 8.6％。

Jun, 2024

分析提示在自动生成方法中的影响：一项基于 Copilot 的实证研究

研究调查了 8 个提示特征对生成代码的风格、内容、正确性、复杂性、大小和与开发人员代码的相似性的影响，并考虑了在使用 Copilot 生成 200 个 Java 方法的 124,800 个提示的任务结果表明，某些提示特征，如示例的存在和方法目的的总结，可以显著影响结果的质量。

Feb, 2024

利用大型语言模型进行自适应测试生成

TestPilot 是一个利用大语言模型的适应性测试生成技术，可以自动为给定的程序生成单元测试，以帮助确保软件的正确性。用户只需提供函数的特征和实现方法，再提取阅读文档，如果测试失败，则 TestPilot 的自适应组件尝试生成新的测试。在 25 个 npm 软件包上的实验表明，TestPilot 生成的测试达到了 93.1% 的语句覆盖率，平均 58.5% 的测试包含了来自被测试包的至少一个功能性断言。

Feb, 2023