Apr, 2024

大型语言模型作为测试用例生成器:性能评估与增强

TL;DR使用大型语言模型(LLMs)生成高质量的测试用例是一个重要问题,目前的研究主要集中在改进代码生成过程中通过 LLMs 生成辅助测试用例的性能,而 LLMs 在仅生成测试用例方面的性能尚未全面研究。为了填补这一空白,本文通过大量实验研究了 LLMs 生成高质量测试用例的能力,并提出了一种名为 TestChain 的多代理框架,通过与 Python 解释器的交互提供更准确的测试输出,实验结果表明 TestChain 在测试用例准确性上明显优于基准模型,其中使用 GPT-4 作为基础的 TestChain 在 LeetCode-hard 数据集上相比基准模型改进了 13.84%。