Apr, 2024

使用LLM生成测试用例以检测棘手的错误

TL;DR本文提出了一个结合差分测试和大规模语言模型(LLMs)的方法(名为AID),用于生成测试输入和测试验证目标合理正确的程序的测试输入和测试验证。使用TrickyBugs和EvalPlus这两个大规模数据集进行评估,结果显示AID的召回率、精确度和F1得分分别高出现有技术的最高值1.80倍、2.65倍和1.66倍。