排行榜排名高 = 编码能力一直出众吗？通过 LLM 实现演进的编码基准评估

Mar, 2024

排行榜排名高 = 编码能力一直出众吗？通过 LLM 实现演进的编码基准评估

Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM

Chunqiu Steven Xia, Yinlin Deng, Lingming Zhang

TL;DR通过 EvoEval 基准套件的引入，评估 LLM 在编码方面的能力，我们的研究展示了 51 个 LLM 的性能显著下降（平均下降 39.4%），从而显示了现有基准的潜在过拟合，并展示了指令跟随模型在重述或微小更改时的脆弱性以及学习问题组成和分解的重要性。

Abstract

llms have become the go-to choice for code generation tasks, with an exponential increase in the training, development, and usage of llms

llms code generation benchmarks evoeval program synthesis

发现论文，激发创造

EvoCodeBench: 一个与真实世界代码仓库对齐的演化代码生成基准

评估大型语言模型在代码生成中的方法是一个开放性问题。本文提出了一个新的基准测试 - EvoCodeBench，用于解决现有基准测试与实际代码仓库的对接不足以及评估 LLMs 的编码能力不足的问题。

Mar, 2024

LLM 生成的代码的效率如何？一个严格和高标准的基准测试

本研究提出了一种评估大型语言模型在生成高效代码方面能力的高标准基准 ENAMEL，通过新的效率度量标准 eff@k 和人工专家设计的参考解决方案对 30 个常用的大型语言模型进行广泛研究，发现当前的大型语言模型在设计先进算法和实现优化方面仍有不足。

Jun, 2024

通过严格评估大型语言模型来生成代码，确定 ChatGPT 生成的代码是否真正正确

使用 EvalPlus 框架对大型语言模型进行代码综合基准测试，通过自动生成测试输入来扩充现有基准测试集，发现并降低了 LLM 合成代码的错误率，揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。

May, 2023

DevEval：与现实世界源代码仓库对齐的手动注释代码生成基准

通过新的基准测试 DevEval，我们评估了 8 种流行的大型语言模型在真实代码库中的编码能力，并发现这些模型的编码能力在真实世界的代码库中存在缺陷。

May, 2024

DevEval: 评估实际软件项目中的代码生成

通过提出一个与开发者在实践项目中的经验相一致的新基准 DevEval，我们评估了五个热门的大型语言模型在代码生成方面的实际能力，揭示了它们的实际表现，并讨论了在实践项目中代码生成的挑战和未来发展方向。

Jan, 2024

RealHumanEval: 评估大型语言模型对程序员的支持能力

通过使用 RealHumanEval、静态基准以及优先度度量，研究了大型语言模型（LLMs）在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力，但基准性能与人类表现之间的差距并不成比例，同时程序员的偏好与实际表现并无关联，这促使我们需要更好、以人为中心的评估指标。同时，我们公开了 RealHumanEval 工具和研究数据以促进代码模型的改进。

Apr, 2024

BigCodeBench：多样化函数调用和复杂指令的代码生成基准

基于大型语言模型 (LLMs) 的自动化软件工程在最近的进展中得到了极大的增强。尽管当前的基准测试表明 LLMs 可以完成各种软件工程任务，如人类开发人员一样，但它们的大多数评估仅限于简短的、自包含的算法任务。解决具有挑战性和实际意义的编程任务需要利用多种函数调用作为工具，以有效地实现数据分析和 Web 开发等功能。此外，使用多个工具来解决一个任务需要通过准确理解复杂的指令来进行组合推理。同时实现这两个特征对于 LLMs 来说是一个巨大的挑战。为了评估 LLMs 解决具有挑战性和实际意义的编程任务的能力，我们引入了一个基准测试集 Bench，其中挑战 LLMs 以从 139 个库和 7 个领域中选择 1,140 个细粒度的编程任务中调用多个函数调用作为工具。为了对 LLMs 进行严格评估，每个编程任务包括 5.6 个测试用例，平均分支覆盖率达到 99%。此外，我们提出了 Bench 的自然语言导向变体 Benchi，它将原始的文档字符串自动转换为仅具有基本信息的简短指令。我们对 60 个 LLMs 进行了广泛评估，结果显示 LLMs 还不能准确地遵循复杂指令来使用函数调用，得分最高仅为 60%，明显低于人类的 97%。这些结果强调了在这个领域进一步改进的需要。

Jun, 2024

ClassEval: 评估 LLMs 在类级别代码生成上的人工制作基准

我们首次尝试在更具挑战性的类级代码生成情景中评估 LLMs，并构建了一个包括 100 个类级 Python 代码生成任务的基准测试集，通过对 11 种最新 LLMs 在类级代码生成任务上的研究，发现现有 LLMs 在类级代码生成上表现较差，GPT-4 和 GPT-3.5 在类级代码生成上的表现卓越，而逐方法生成是其他模型更好的策略。

Aug, 2023

基准自演进：一种用于动态 LLM 评估的多智能体框架

该研究提出了一个基准的自我演进框架，动态评估迅速发展的大型语言模型（LLMs）的能力和限制，实施基于多智能体系统的重构操作来构建演进实例，对 LLMs 进行更可扩展、稳健和细粒度的评估，并发现它们在多个任务上的性能普遍下降。

Feb, 2024

LiveCodeBench：大规模语言模型对代码进行全面无污染评估

本文提出了一个面向代码的综合、无污染评估系统 LiveCodeBench，其中收集了来自 LeetCode、AtCoder 和 CodeForces 三个竞赛平台的问题，着重评估 LLMs 在代码生成以外的自修复、代码执行和测试输出预测等更广泛的代码相关能力。

Mar, 2024