Apr, 2023

探究大型语言模型在生成单元测试中的效果

TL;DR该研究探讨了三种代码生成模型(CodeGen、Codex 和 GPT-3.5)在单元测试生成中的效果,发现 Codex 模型在 HumanEval 数据集中可以达到 80% 以上的覆盖率,但在 EvoSuite SF110 基准测试中,没有模型的覆盖率超过 2% 且生成的测试代码存在多种测试异味问题。