Sep, 2023

激励代码解释器在 Quixbugs 函数上编写更好的单元测试

TL;DR本研究探讨了通过改变提示方式对由基于 GPT-4 的 Code Interpreter 生成的 Python 函数单元测试质量的影响,并发现其生成的单元测试质量对于提示中的细节变化不敏感,但其能够有效地识别和纠正自动生成的代码中的错误,同时建议为其提供可运行的代码以检查输出正确性。