SWE-bench：能否通过语言模型解决真实世界的 GitHub 问题？

Oct, 2023

SWE-bench：能否通过语言模型解决真实世界的 GitHub 问题？

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei...

TL;DR评估了新一代语言模型在软件工程领域的能力，通过 SWE-bench 框架提供了包括软件工程问题和对应 Python 库的真实 GitHub 问题的解决方案，结果表明目前的模型在解决问题时仍存在困难，呼吁进一步提高模型在实际应用中的智能和自主能力。

Abstract

language models have outpaced our ability to evaluate them effectively, but for their future development it is essential to study the frontier of their capabilities. We consider real-world software engineering to

language models software engineering evaluation framework swe-bench code generation

发现论文，激发创造

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023

NLPBench：评估大型语言模型在解决 NLP 问题上的能力

通过独特的基准数据集 NLPBench，评估了大型语言模型在自然语言处理中的问题解决能力，并发现高级提示策略的有效性不稳定，对 LLMs 性能有时造成损害，尤其是较小的模型 LLAMA-2（13 亿参数）中表现更明显；同时发现大型语言模型在科学问题解决能力方面存在特定的不足，逻辑分解和推理的薄弱性明显影响结果。

Sep, 2023

CodeEditorBench: 大型语言模型的代码编辑能力评估

通过 CodeEditorBench，我们为 LLMs 的代码编辑能力提供了一个可靠的评估平台，其中 19 个 LLMs 的评估结果表明闭源模型（特别是 Gemini-Ultra 和 GPT-4）在 CodeEditorBench 中优于开源模型，并突出了基于问题类型和提示敏感性的模型性能差异。

Apr, 2024

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

代码 R：多智能体和任务图的问题解决

采用多智能体框架和预定义的任务图，提出了 CodeR，用于修复和解决代码存储库中报告的错误和添加新功能。在 SWE-bench lite 中，CodeR 能够解决 28.00％的问题，每个问题仅需提交一次。检验了 CodeR 的每个设计对性能的影响，并提供了推进这个研究方向的见解。

Jun, 2024

DevBench：软件开发综合基准

最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而，现有的基准主要关注编程的简化或隔离方面，如单文件代码生成或存储库问题调试，无法全面衡量真实世界编程活动引发的各种挑战。为此，我们提出了 DevBench，这是一个全面的基准，评估 LLMs 在软件开发生命周期的各个阶段，包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域，具备高质量的数据收集，并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明，包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示，模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。

Mar, 2024

xCodeEval：一项用于代码理解、生成、翻译和检索的大规模多语言多任务基准测试

人工智能正在开发出可以用于程序编写的 AI 系统，生成代码的自然语言描述，语言模型在生成代码的过程中表现出了良好的性能，但它们的评估通常只在少数语言和部分层次上进行，还需要更好的培训数据。

Mar, 2023

AutoCodeRover：自主程序改进

提出了一种自动化的方法 AutoCodeRover，将 LLMs 与复杂的代码搜索能力相结合，从而实现对 Github 问题的自主解决，进而实现程序改进。

Apr, 2024

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

RealHumanEval: 评估大型语言模型对程序员的支持能力

通过使用 RealHumanEval、静态基准以及优先度度量，研究了大型语言模型（LLMs）在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力，但基准性能与人类表现之间的差距并不成比例，同时程序员的偏好与实际表现并无关联，这促使我们需要更好、以人为中心的评估指标。同时，我们公开了 RealHumanEval 工具和研究数据以促进代码模型的改进。

Apr, 2024