DevBench：软件开发综合基准

Mar, 2024

DevBench: A Comprehensive Benchmark for Software Development

Bowen Li, Wenhan Wu, Ziwei Tang, Lin Shi, John Yang...

TL;DR最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而，现有的基准主要关注编程的简化或隔离方面，如单文件代码生成或存储库问题调试，无法全面衡量真实世界编程活动引发的各种挑战。为此，我们提出了 DevBench，这是一个全面的基准，评估 LLMs 在软件开发生命周期的各个阶段，包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域，具备高质量的数据收集，并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明，包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示，模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。

Abstract

Recent advancements in large language models (LLMs) have significantly enhanced their coding capabilities. However, existing benchmarks predominantly focused on simplified or isolated aspects of programming, such as single-file code generation or repository issue debugging, falling sho

large language models benchmark software development lifecycle programming languages real-world programming

发现论文，激发创造

DevEval: 评估实际软件项目中的代码生成

通过提出一个与开发者在实践项目中的经验相一致的新基准 DevEval，我们评估了五个热门的大型语言模型在代码生成方面的实际能力，揭示了它们的实际表现，并讨论了在实践项目中代码生成的挑战和未来发展方向。

Jan, 2024

BigCodeBench：多样化函数调用和复杂指令的代码生成基准

基于大型语言模型 (LLMs) 的自动化软件工程在最近的进展中得到了极大的增强。尽管当前的基准测试表明 LLMs 可以完成各种软件工程任务，如人类开发人员一样，但它们的大多数评估仅限于简短的、自包含的算法任务。解决具有挑战性和实际意义的编程任务需要利用多种函数调用作为工具，以有效地实现数据分析和 Web 开发等功能。此外，使用多个工具来解决一个任务需要通过准确理解复杂的指令来进行组合推理。同时实现这两个特征对于 LLMs 来说是一个巨大的挑战。为了评估 LLMs 解决具有挑战性和实际意义的编程任务的能力，我们引入了一个基准测试集 Bench，其中挑战 LLMs 以从 139 个库和 7 个领域中选择 1,140 个细粒度的编程任务中调用多个函数调用作为工具。为了对 LLMs 进行严格评估，每个编程任务包括 5.6 个测试用例，平均分支覆盖率达到 99%。此外，我们提出了 Bench 的自然语言导向变体 Benchi，它将原始的文档字符串自动转换为仅具有基本信息的简短指令。我们对 60 个 LLMs 进行了广泛评估，结果显示 LLMs 还不能准确地遵循复杂指令来使用函数调用，得分最高仅为 60%，明显低于人类的 97%。这些结果强调了在这个领域进一步改进的需要。

Jun, 2024

CodeEditorBench: 大型语言模型的代码编辑能力评估

通过 CodeEditorBench，我们为 LLMs 的代码编辑能力提供了一个可靠的评估平台，其中 19 个 LLMs 的评估结果表明闭源模型（特别是 Gemini-Ultra 和 GPT-4）在 CodeEditorBench 中优于开源模型，并突出了基于问题类型和提示敏感性的模型性能差异。

Apr, 2024

DebugBench：评估大型语言模型的调试能力

大型语言模型 (LLMs) 在编码能力方面表现出色。然而，作为编程能力的另一个关键组成部分，LLMs 的调试能力仍未得到充分探索。我们介绍了 “DebugBench”，一个包含 4,253 个实例的 LLM 调试基准。它涵盖了 C++、Java 和 Python 中的四个主要漏洞类别和 18 个次要类型。通过使用 GPT-4 在源数据中植入漏洞，收集 LeetCode 社区的代码片段，并进行严格的质量检查来构建 DebugBench。我们以零样本场景中评估了两个商业和三个开源模型。我们发现，（1）与人类相比，GPT-4 等闭源模型的调试性能较差，Code Llama 等开源模型未能达到任何通过率；（2）调试的复杂性明显取决于漏洞类别；（3）运行时反馈对调试性能有明显影响，但并非总是有帮助。作为扩展，我们还比较了 LLM 调试和代码生成，发现闭源模型它们之间存在很强的关联。这些发现将有助于 LLM 在调试方面的发展。

Jan, 2024

DevEval：与现实世界源代码仓库对齐的手动注释代码生成基准

通过新的基准测试 DevEval，我们评估了 8 种流行的大型语言模型在真实代码库中的编码能力，并发现这些模型的编码能力在真实世界的代码库中存在缺陷。

May, 2024

CS-Bench: 大型语言模型的全面基准，助力计算机科学掌握

计算机科学（CS）是人类智能复杂性的证明，深刻推动了人工智能和现代社会的发展。我们引入 CS-Bench，这是第一个专门用于评估 LLM 在计算机科学领域性能的双语（中英文）基准，包括大约 5K 个精心策划的测试样本，涵盖计算机科学的 4 个关键领域的 26 个子领域，包括各种任务形式和知识推理的划分。利用 CS-Bench，我们对 30 多个主流 LLM 进行了全面评估，揭示了 CS 性能与模型规模之间的关系，并定量分析了现有 LLM 失败的原因，并强调了知识补充和 CS 特定推理等改进方向。进一步的跨能力实验显示 LLM 在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外，专注于数学和编码的专家 LLM 在几个 CS 子领域也表现出强大的性能。展望未来，我们预见 CS-Bench 将成为 LLM 在 CS 领域应用的基石，并为评估 LLM 的多样化推理能力开辟新的途径。CS-Bench 的数据和评估代码可在此 https URL 上找到。

Jun, 2024

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

EvoCodeBench: 一个与真实世界代码仓库对齐的演化代码生成基准

评估大型语言模型在代码生成中的方法是一个开放性问题。本文提出了一个新的基准测试 - EvoCodeBench，用于解决现有基准测试与实际代码仓库的对接不足以及评估 LLMs 的编码能力不足的问题。

Mar, 2024

LiveCodeBench：大规模语言模型对代码进行全面无污染评估

本文提出了一个面向代码的综合、无污染评估系统 LiveCodeBench，其中收集了来自 LeetCode、AtCoder 和 CodeForces 三个竞赛平台的问题，着重评估 LLMs 在代码生成以外的自修复、代码执行和测试输出预测等更广泛的代码相关能力。

Mar, 2024

StableToolBench: 朝着大规模稳定的工具学习基准测试迈进

通过结合外部工具，将大型语言模型与实施工具学习，以应对不同的现实挑战，获得显著进展。鉴于此，为了评估大型语言模型利用工具的能力，需要进行大规模且稳定的基准测试。因此，本研究提出了 StableToolBench，作为 ToolBench 的演进版本，引入了虚拟 API 服务器和稳定的评估系统，通过缓存系统与 API 模拟器相辅相成，稳定 API 服务器状态，同时采用 GPT-4 作为自动评估器，设计了可解决的通过率和胜利率，消除了评估过程中的随机性。实验结果验证了 StableToolBench 的稳定性，并进一步讨论了 API 模拟器、缓存系统和评估系统的有效性。

Mar, 2024