面向代码生成的测试驱动开发
使用测试驱动开发方法,将大型语言模型指导进行迭代式代码生成,以提高软件系统正确性的程序综合方法。通过在 ChatGPT 和 LeetCode 编码问题上进行实证评估,研究不同测试、提示和问题属性对 LLM4TDD 方法有效性的影响。
Dec, 2023
提出一种使用大型语言模型来增强 BDD 实践的新方法,通过零样本和少样本提示评估 GPT-3.5、GPT-4 等 LLMs 的性能,旨在自动生成无错误的 BDD 验收测试,强调该方法对于支持协作 BDD 流程和未来自动化 BDD 验收测试生成的研究具有潜力。
Mar, 2024
在本文中,我们提出了一种新方法 CodeT,利用预先训练的语言模型自动生成代码示例的测试用例,从而减少人工成本并增加测试场景的覆盖范围,最终实现基于生成的测试用例的代码解决方案选择。
Jul, 2022
我们提出了一种称为变质提示测试的新颖解决方案,用于解决由大型语言模型生成的代码质量和正确性所引发的挑战,并在 HumanEval 评估中显示,该方法能够检测到由 GPT-4 生成的错误程序的 75%,误报率为 8.6%。
Jun, 2024
我们提出了一种基于大型语言模型的自动测试用例生成方法,证明它们是衡量学生知识的良好指标,使用了一个包含学生编写的 Java 代码的公开数据集,并讨论了以测试用例帮助学生为中心的未来研究方向。
Feb, 2024
该研究探讨了三种代码生成模型(CodeGen、Codex 和 GPT-3.5)在单元测试生成中的效果,发现 Codex 模型在 HumanEval 数据集中可以达到 80% 以上的覆盖率,但在 EvoSuite SF110 基准测试中,没有模型的覆盖率超过 2% 且生成的测试代码存在多种测试异味问题。
Apr, 2023
本文提出了一种名为 TiP 的方法,该方法将代码生成分解为两个步骤,逐步引导大型语言模型(LLMs)在编程逻辑中分析和实现要求,并在三个公共基准测试中进行了广泛的实验,结果表明 TiP 在多个指标上优于现有的基线 (ChatGPT),且对于不同的 LLMs 具有有效性。
May, 2023
使用 Transformer-based 代码模型,提出完全自动化的测试框架,能够生成可编译和可读的单元测试,可以补充搜索 - based 测试生成的测试,并且能够覆盖开发人员编写测试中未覆盖的代码行。
Aug, 2023
利用对最近的大型语言模型进行了代码测试的详尽分析,本研究展示了这些模型的一系列有趣性质,并展示了如何改进大型语言模型的程序测试能力,通过利用生成的测试用例来提高合成程序的质量,相较于 GPT-3.5-turbo 和最新的最先进技术,我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。
Oct, 2023
本文使用 GPT-4 进行了多项实验来生成计算机代码,发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时,使用 GPT-4 进行代码改进可以显著提高代码质量,但生成的测试仍需要人类验证。
Apr, 2023