SWE-bench:能否通过语言模型解决真实世界的 GitHub 问题?
通过使用开源库完成机器学习任务,本文旨在提出一种新的评估设置,以评估大型语言模型(LLMs)在实际编程中的适用性,并介绍了 ML-Bench 和 ML-Agent 两个工具,用于评估 LLMs 在利用开源函数时的有效性。
Nov, 2023
通过独特的基准数据集 NLPBench,评估了大型语言模型在自然语言处理中的问题解决能力,并发现高级提示策略的有效性不稳定,对 LLMs 性能有时造成损害,尤其是较小的模型 LLAMA-2(13 亿参数)中表现更明显;同时发现大型语言模型在科学问题解决能力方面存在特定的不足,逻辑分解和推理的薄弱性明显影响结果。
Sep, 2023
通过 CodeEditorBench,我们为 LLMs 的代码编辑能力提供了一个可靠的评估平台,其中 19 个 LLMs 的评估结果表明闭源模型(特别是 Gemini-Ultra 和 GPT-4)在 CodeEditorBench 中优于开源模型,并突出了基于问题类型和提示敏感性的模型性能差异。
Apr, 2024
最近大型语言模型 (LLM) 在许多数学基准上取得显著进展,但大多数基准只涉及初高中科目的问题和多项选择题,且仅限于有限范围的基本算术操作。为解决这些问题,本文引入了一个广泛的基准套件 SciBench,旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集:一个开放集,包含从数学、化学和物理教科书中提取的多领域的大学级科学问题;一个封闭集,包含了计算机科学和数学本科考试中的问题。基于这两个数据集,我们对两个代表性 LLM 进行了深入的基准研究,采用多种提示策略。结果表明,当前 LLM 的表现不尽如人意,综合得分仅为 35.80%。此外,通过详细的用户研究,我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明,没有一种单一的提示策略明显优于其他策略,而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展,从而最终促进科学研究和发现。
Jul, 2023
采用多智能体框架和预定义的任务图,提出了 CodeR,用于修复和解决代码存储库中报告的错误和添加新功能。在 SWE-bench lite 中,CodeR 能够解决 28.00%的问题,每个问题仅需提交一次。检验了 CodeR 的每个设计对性能的影响,并提供了推进这个研究方向的见解。
Jun, 2024
最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而,现有的基准主要关注编程的简化或隔离方面,如单文件代码生成或存储库问题调试,无法全面衡量真实世界编程活动引发的各种挑战。为此,我们提出了 DevBench,这是一个全面的基准,评估 LLMs 在软件开发生命周期的各个阶段,包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域,具备高质量的数据收集,并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明,包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示,模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。
Mar, 2024
人工智能正在开发出可以用于程序编写的 AI 系统,生成代码的自然语言描述,语言模型在生成代码的过程中表现出了良好的性能,但它们的评估通常只在少数语言和部分层次上进行,还需要更好的培训数据。
Mar, 2023
提出了一种自动化的方法 AutoCodeRover,将 LLMs 与复杂的代码搜索能力相结合,从而实现对 Github 问题的自主解决,进而实现程序改进。
Apr, 2024
利用对最近的大型语言模型进行了代码测试的详尽分析,本研究展示了这些模型的一系列有趣性质,并展示了如何改进大型语言模型的程序测试能力,通过利用生成的测试用例来提高合成程序的质量,相较于 GPT-3.5-turbo 和最新的最先进技术,我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。
Oct, 2023
通过使用 RealHumanEval、静态基准以及优先度度量,研究了大型语言模型(LLMs)在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力,但基准性能与人类表现之间的差距并不成比例,同时程序员的偏好与实际表现并无关联,这促使我们需要更好、以人为中心的评估指标。同时,我们公开了 RealHumanEval 工具和研究数据以促进代码模型的改进。
Apr, 2024