CRUXEval：代码推理、理解和执行的基准评估

Jan, 2024

CRUXEval：代码推理、理解和执行的基准评估

CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

Alex Gu, Baptiste Rozière, Hugh Leather, Armando Solar-Lezama, Gabriel Synnaeve...

TL;DR我们提供了 CRUXEval（代码推理、理解和执行评估）基准测试，包含 800 个 Python 函数（3-13 行）。每个函数都带有一个输入输出对，以进行输入预测和输出预测两个任务。我们评估了二十个代码模型，并发现许多在 HumanEval 上得分较高的最近模型在我们的基准测试中没有显示相同的改进。我们展示了简单的 CoT 和微调策略可以提高在我们的基准测试上的性能，但仍然远未解决问题。最佳组合是采用 CoT 的 GPT-4，输入预测的通过率为 75％，输出预测的通过率为 81％。相比之下，Code Llama 34B 在输入预测和输出预测上的通过率分别为 50％和 46％，突显了开源和闭源模型之间的差距。由于没有模型接近 CRUXEval 的理想表现，我们提供了一些 GPT-4 在简单程序上的一致性失败示例，作为了解其代码推理能力和改进方向的透视。

Abstract

We present cruxeval (Code Reasoning, Understanding, and eXecution Evaluation), a benchmark consisting of 800 Python functions (3-13 lines). Each function comes with an input-output pair, leading to two natural ta

cruxeval python function benchmark code models input-output prediction

发现论文，激发创造

对基于代码训练的大型语言模型的评估

本文介绍了从 GitHub 公开可用的代码细调的 Codex 语言模型，并研究了其 Python 代码编写能力。在新的评估集 HumanEval 上，我们的模型可解决 28.8% 的问题，并发现重复采样模型是解决难题的有效策略。但我们也发现其局限性，最终讨论了代码生成技术的潜在影响。

Jul, 2021

最新 GPT 模型的人工评估 -- 2024

使用 GPT-4 模型改进程序综合，通过与 Huamn Eval 连接的代码库展示了在 Python 代码生成上与先前最先进的解决方案相比具有竞争力的性能，同时促进了多步骤范式综合。

Feb, 2024

xCodeEval：一项用于代码理解、生成、翻译和检索的大规模多语言多任务基准测试

人工智能正在开发出可以用于程序编写的 AI 系统，生成代码的自然语言描述，语言模型在生成代码的过程中表现出了良好的性能，但它们的评估通常只在少数语言和部分层次上进行，还需要更好的培训数据。

Mar, 2023

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

CrossCodeEval：用于跨文件代码补全的多样化和多语言基准

通过对多文件、多语言代码完成任务进行深入研究，提出了一个多样化的、多语言的、需要深入理解跨文件上下文的代码完成基准，通过静态分析来准确定位需要跨文件上下文的实例，并证明跨文件上下文对于完整代码的准确性有着显著的影响。此外，还对检索跨文件上下文的各种方法进行了评估，并且展示了该基准的能力在衡量代码检索器的能力方面。

Oct, 2023

CodeT：生成测试的代码生成

在本文中，我们提出了一种新方法 CodeT，利用预先训练的语言模型自动生成代码示例的测试用例，从而减少人工成本并增加测试场景的覆盖范围，最终实现基于生成的测试用例的代码解决方案选择。

Jul, 2022

ScenEval：代码生成场景评估的基准

该研究论文介绍了一种基于场景的机器学习模型评估方法，并构建了一个基准测试集，用于代码生成任务的评估。实验证明，ChatGPT 在复杂的编码任务中表现最差，生成的代码行数通常比参考解决方案少，但在圈复杂度和认知复杂度方面更复杂，如果生成的代码正确，它往往比参考解决方案少复杂度，如果生成的代码不正确，则往往比参考解决方案少复杂度。

Jun, 2024

NaturalCodeBench: 检视 HumanEval 和自然用户提示对编码性能不匹配的问题

大型语言模型在生产性活动的代码生成方面表现出强大的能力。然而，当前的代码合成基准主要面向算法和数据科学的入门任务，在真实世界的编码中对具有挑战性的要求不够满足。为了填补这一差距，我们提出了 NaturalCodeBench（NCB）作为一个具有挑战性的代码基准，旨在模拟真实编码任务的复杂性和多样性。NCB 由来自在线编码服务的自然用户查询中精心挑选的 402 个高质量问题组成，涵盖了 6 个不同领域。我们还引入了半自动化流程来提高测试用例构建的效率，相比手动解决方案，效率提高了 4 倍以上。我们对 39 个大型语言模型进行了系统实验，发现在 NCB 上，具有接近 HumanEval 评分的模型之间的性能差距仍然可能很大，表明对实际代码合成场景的关注不足或在 HumanEval 上过度优化。另一方面，即使是表现最佳的 GPT-4 在 NCB 上仍然远未令人满意。评估工具和开发集可在此 URL 获取。

May, 2024

DevEval：与现实世界源代码仓库对齐的手动注释代码生成基准

通过新的基准测试 DevEval，我们评估了 8 种流行的大型语言模型在真实代码库中的编码能力，并发现这些模型的编码能力在真实世界的代码库中存在缺陷。

May, 2024

CodeBenchGen: 创建可扩展的基于执行的代码生成基准

用 CodeBenchGen 框架创建可扩展的基于执行的基准测试，利用大型语言模型将任意代码转换为评估示例，并通过 Exec-CSN 数据集展示了人类和模型在代码生成系统上的性能分析。

Mar, 2024