May, 2023

通过严格评估大型语言模型来生成代码,确定 ChatGPT 生成的代码是否真正正确

TL;DR使用 EvalPlus 框架对大型语言模型进行代码综合基准测试,通过自动生成测试输入来扩充现有基准测试集,发现并降低了 LLM 合成代码的错误率,揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。