面向代码生成的测试驱动开发

Feb, 2024

Test-Driven Development for Code Generation

Noble Saji Mathews, Meiyappan Nagappan

TL;DR通过实验证明，在使用 GPT4 生成代码的过程中，使用 TDD 开发模型（即在给定问题描述之前先编写测试）比仅使用问题描述作为输入更好，并且在一系列实验中一致表现出 TDD 解决编程问题的能力比仅使用问题描述更强。

Abstract

large language models (LLMs) like GPT4, have shown proficiency in generating code snippets from problem statements. Traditionally software development by humans followed a similar methodology of writing code from problem statements or requirements. However, in the past, there have been

large language models code generation test-driven development tdd programming problems

发现论文，激发创造

LLM4TDD：使用大型语言模型进行测试驱动开发的最佳实践

使用测试驱动开发方法，将大型语言模型指导进行迭代式代码生成，以提高软件系统正确性的程序综合方法。通过在 ChatGPT 和 LeetCode 编码问题上进行实证评估，研究不同测试、提示和问题属性对 LLM4TDD 方法有效性的影响。

Dec, 2023

大型语言模型在行为驱动开发验收测试制定中的综合评估和见解

提出一种使用大型语言模型来增强 BDD 实践的新方法，通过零样本和少样本提示评估 GPT-3.5、GPT-4 等 LLMs 的性能，旨在自动生成无错误的 BDD 验收测试，强调该方法对于支持协作 BDD 流程和未来自动化 BDD 验收测试生成的研究具有潜力。

Mar, 2024

CodeT：生成测试的代码生成

在本文中，我们提出了一种新方法 CodeT，利用预先训练的语言模型自动生成代码示例的测试用例，从而减少人工成本并增加测试场景的覆盖范围，最终实现基于生成的测试用例的代码解决方案选择。

Jul, 2022

使用变形提示测试验证 LLM 生成的程序

我们提出了一种称为变质提示测试的新颖解决方案，用于解决由大型语言模型生成的代码质量和正确性所引发的挑战，并在 HumanEval 评估中显示，该方法能够检测到由 GPT-4 生成的错误程序的 75％，误报率为 8.6％。

Jun, 2024

利用大型语言模型进行计算机科学教育中学生代码引导的测试用例生成

我们提出了一种基于大型语言模型的自动测试用例生成方法，证明它们是衡量学生知识的良好指标，使用了一个包含学生编写的 Java 代码的公开数据集，并讨论了以测试用例帮助学生为中心的未来研究方向。

Feb, 2024

探究大型语言模型在生成单元测试中的效果

该研究探讨了三种代码生成模型（CodeGen、Codex 和 GPT-3.5）在单元测试生成中的效果，发现 Codex 模型在 HumanEval 数据集中可以达到 80% 以上的覆盖率，但在 EvoSuite SF110 基准测试中，没有模型的覆盖率超过 2% 且生成的测试代码存在多种测试异味问题。

Apr, 2023

大型语言模型中编程思维的激活：面向代码生成

本文提出了一种名为 TiP 的方法，该方法将代码生成分解为两个步骤，逐步引导大型语言模型（LLMs）在编程逻辑中分析和实现要求，并在三个公共基准测试中进行了广泛的实验，结果表明 TiP 在多个指标上优于现有的基线 (ChatGPT)，且对于不同的 LLMs 具有有效性。

May, 2023

使用代码模型和领域适应生成自动化测试用例

使用 Transformer-based 代码模型，提出完全自动化的测试框架，能够生成可编译和可读的单元测试，可以补充搜索 - based 测试生成的测试，并且能够覆盖开发人员编写测试中未覆盖的代码行。

Aug, 2023

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

AI 辅助编码：GPT-4 实验

本文使用 GPT-4 进行了多项实验来生成计算机代码，发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时，使用 GPT-4 进行代码改进可以显著提高代码质量，但生成的测试仍需要人类验证。

Apr, 2023