Jan, 2024

CRUXEval:代码推理、理解和执行的基准评估

TL;DR我们提供了 CRUXEval(代码推理、理解和执行评估)基准测试,包含 800 个 Python 函数(3-13 行)。每个函数都带有一个输入输出对,以进行输入预测和输出预测两个任务。我们评估了二十个代码模型,并发现许多在 HumanEval 上得分较高的最近模型在我们的基准测试中没有显示相同的改进。我们展示了简单的 CoT 和微调策略可以提高在我们的基准测试上的性能,但仍然远未解决问题。最佳组合是采用 CoT 的 GPT-4,输入预测的通过率为 75%,输出预测的通过率为 81%。相比之下,Code Llama 34B 在输入预测和输出预测上的通过率分别为 50%和 46%,突显了开源和闭源模型之间的差距。由于没有模型接近 CRUXEval 的理想表现,我们提供了一些 GPT-4 在简单程序上的一致性失败示例,作为了解其代码推理能力和改进方向的透视。