Jun, 2024

ScenEval:代码生成场景评估的基准

TL;DR该研究论文介绍了一种基于场景的机器学习模型评估方法,并构建了一个基准测试集,用于代码生成任务的评估。实验证明,ChatGPT 在复杂的编码任务中表现最差,生成的代码行数通常比参考解决方案少,但在圈复杂度和认知复杂度方面更复杂,如果生成的代码正确,它往往比参考解决方案少复杂度,如果生成的代码不正确,则往往比参考解决方案少复杂度。