大型语言模型的面向对象编程评估基准

Jan, 2024

大型语言模型的面向对象编程评估基准

OOP: Object-Oriented Programming Evaluation Benchmark for Large Language Models

Shuai Wang, Liang Ding, Li Shen, Yong Luo, Bo Du...

TL;DR推动自动化编程需要强大和全面的代码生成基准，然而当前的评估框架在功能编程 (FP) 方面相对而言忽视了面向对象编程 (OOP)，本研究引入了一个面向对象编程的开创性基准，包含了 431 个涵盖关键的 OOP 概念和特性的 Python 程序，并提出了一个新的针对 OOP 的评估指标 pass@o，改进了传统的 pass@k 度量，研究结果表明 pass@o 为 OOP 代码生成提供了更相关和全面的评估，专注于代码的语言模型在功能编程方面表现出色，但在 OOP 方面则不及 ChatGPT 等模型，对所有高级代码语言模型在面向对象编程基准上的不良表现突显了这一领域需要的改进。

Abstract

Advancing automated programming necessitates robust and comprehensive code generation benchmarks, yet current evaluation frameworks largely neglect object-oriented programming (OOP) in favor of functional program

automated programming code generation benchmarks object-oriented programming evaluation metric language models

发现论文，激发创造

AI 能在 JavaBench 上击败本科生的入门级 Java 作业吗？

通过比较 LML 的编码能力与学生的能力，研究发现在项目级别的 Java 编程中，LML 远远落后于学生，并提出了一种新的、覆盖广泛的评估方法。

Jun, 2024

挑战前人未达之地：暴露代码生成评估中的偏见和不足

本研究对 Python 代码生成的两个广泛应用的基准测试 ——HumanEval 和 MBPP 进行了大规模人工评估，重点关注它们的多样性与难度。研究结果发现，现有基准测试对少数编程概念存在显著偏向，而对大多数概念几乎没有或没有代表性的呈现。此外，研究还发现易于完成的编程问题所占比例极高，可能导致对模型在代码生成任务上性能的过高评价。

Jan, 2024

MHPP: 探索语言模型在基本代码生成之外的能力和局限性

最近大型语言模型（LLMs）在代码生成方面有了显著进展，但现有的基准测试无法全面评估 LLMs 在函数级代码生成能力方面的充分性。通过分析两个常见的基准测试（HumanEval 和 MBPP），我们的研究发现由于质量、难度和细度的限制，这些测试可能无法彻底评估 LLMs 的代码生成能力。因此，我们引入了 “Mostly Hard Python Problems”（MHPP）数据集，包含 140 个独特的人类策划问题。通过将自然语言和代码推理相结合，MHPP 评估了 LLMs 理解规范和限制、进行多步推理以及有效应用编码知识的能力。对 22 个 LLMs 使用 MHPP 的初步评估显示，在 HumanEval 上表现良好的模型在 MHPP 上往往无法取得类似的成功。此外，MHPP 突显出各种以前未被发现的 LLMs 的限制，让我们相信它能为更好地理解 LLMs 的能力和限制铺平道路。数据集和代码可在此链接获取。

May, 2024

OpsEval：一个针对大型语言模型的综合任务导向的 AIOps 基准

LLMs 在 NLP 任务中表现出显著能力，并且在特定领域，特别是 AIOps 领域具有潜在的应用前景。然而，目前 LLMs 在 AIOps 任务中的性能还有待确定。本文介绍了一个为 LLMs 设计的综合任务导向的 AIOps 基准测试 OpsEval，首次评估了 LLMs 在各种能力水平下的关键场景中的表现。

Oct, 2023

DevBench：软件开发综合基准

最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而，现有的基准主要关注编程的简化或隔离方面，如单文件代码生成或存储库问题调试，无法全面衡量真实世界编程活动引发的各种挑战。为此，我们提出了 DevBench，这是一个全面的基准，评估 LLMs 在软件开发生命周期的各个阶段，包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域，具备高质量的数据收集，并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明，包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示，模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。

Mar, 2024

测量编程语言分布的影响

为了解决现有编程语言评估标准对一些流行编程语言（如 Go 或 Rust）的限制，该论文提出了一个基于执行的语言无关基准评估框架 BabelCode。同时，该论文还提出了一个新的代码翻译数据集 TP3，用于研究通过平衡 14 种语言在训练数据集中的分布来提高大规模语言模型在低资源语言任务中的性能。训练模型在平衡语料库上平均后，该模型在所有任务和语言上的 $pass@k$ 比基线模型高 12.34％。该策略在低资源语言上的 $pass@k$ 提高了 66.48％，而仅以 12.94％的代价降低了高资源语言的 $pass@k$，具有实际应用意义。

Feb, 2023

代码生成模型的多语言评估

本文提出了新的基准测试，包括 MBXP，Multilingual HumanEval 和 MathQA-X，以测试多语言环境下代码生成模型的性能，并发现了多语言模型的优势，以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者还利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他与代码相关的评估任务中使用的合成规范解决方案。

Oct, 2022

BigCodeBench：多样化函数调用和复杂指令的代码生成基准

基于大型语言模型 (LLMs) 的自动化软件工程在最近的进展中得到了极大的增强。尽管当前的基准测试表明 LLMs 可以完成各种软件工程任务，如人类开发人员一样，但它们的大多数评估仅限于简短的、自包含的算法任务。解决具有挑战性和实际意义的编程任务需要利用多种函数调用作为工具，以有效地实现数据分析和 Web 开发等功能。此外，使用多个工具来解决一个任务需要通过准确理解复杂的指令来进行组合推理。同时实现这两个特征对于 LLMs 来说是一个巨大的挑战。为了评估 LLMs 解决具有挑战性和实际意义的编程任务的能力，我们引入了一个基准测试集 Bench，其中挑战 LLMs 以从 139 个库和 7 个领域中选择 1,140 个细粒度的编程任务中调用多个函数调用作为工具。为了对 LLMs 进行严格评估，每个编程任务包括 5.6 个测试用例，平均分支覆盖率达到 99%。此外，我们提出了 Bench 的自然语言导向变体 Benchi，它将原始的文档字符串自动转换为仅具有基本信息的简短指令。我们对 60 个 LLMs 进行了广泛评估，结果显示 LLMs 还不能准确地遵循复杂指令来使用函数调用，得分最高仅为 60%，明显低于人类的 97%。这些结果强调了在这个领域进一步改进的需要。

Jun, 2024

CodeApex: 大型语言模型的双语编程评估基准

CodeApex 是一个双语基准数据集，专注于评估大型语言模型（LLMs）在编程理解和代码生成能力上。数据集由三种类型的多项选择题组成，用于评估 LLMs 在编程理解任务上的能力，同时利用算法问题和相应的测试用例来评估 LLMs 生成的代码质量。通过评估包括通用和专用模型在内的 14 个先进 LLMs，发现 GPT 展现出最佳的编程能力，在两个任务上分别达到了约 50% 和 56% 的准确率。希望 CodeApex 能够作为评估 LLMs 编码能力的参考，进一步推动其发展和增长。

Sep, 2023

迭代还是创新？针对代码优化的问题导向视角

大语言模型在代码优化方面展示出强大的能力，通过将优化对构建成面向问题的方法，结合不同程序员对同一问题的巧妙思路，实验证明了适应面向问题的优化对能显著提升大语言模型的优化能力，进一步通过模型合并解决性能瓶颈，达到了新的高水平。

Jun, 2024