CodeApex: 大型语言模型的双语编程评估基准

Sep, 2023

CodeApex: 大型语言模型的双语编程评估基准

CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models

Lingyue Fu, Huacan Chai, Shuang Luo, Kounianhua Du, Weiming Zhang...

TL;DRCodeApex 是一个双语基准数据集，专注于评估大型语言模型（LLMs）在编程理解和代码生成能力上。数据集由三种类型的多项选择题组成，用于评估 LLMs 在编程理解任务上的能力，同时利用算法问题和相应的测试用例来评估 LLMs 生成的代码质量。通过评估包括通用和专用模型在内的 14 个先进 LLMs，发现 GPT 展现出最佳的编程能力，在两个任务上分别达到了约 50% 和 56% 的准确率。希望 CodeApex 能够作为评估 LLMs 编码能力的参考，进一步推动其发展和增长。

Abstract

With the emergence of large language models (LLMs), there has been a significant improvement in the programming capabilities of models, attracting growing attention from researchers. We propose CodeApex, a bilingual benchmark dataset focusing on the →

large language models programming comprehension code generation benchmark dataset programming tasks

发现论文，激发创造

通过迭代实验编程实现大型多模态模型自动基准测试

自动化实验设计的框架 APEx 可以借助大型语言模型和预先指定的工具库生成一组实验，并逐步编制科学报告，以驱动测试过程和生成自然语言的结果。

Jun, 2024

代码生成模型的多语言评估

本文提出了新的基准测试，包括 MBXP，Multilingual HumanEval 和 MathQA-X，以测试多语言环境下代码生成模型的性能，并发现了多语言模型的优势，以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者还利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他与代码相关的评估任务中使用的合成规范解决方案。

Oct, 2022

大型语言模型代码生成的鲁棒性和可靠性研究

最近，大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而，对于 LLMs 生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括 1208 个编程问题的数据集 RobustAPI，用于评估 LLMs 生成的代码的可靠性和鲁棒性，并发现甚至对于 GPT-4 而言，62% 的生成代码存在 API 误用，这可能导致意想不到的后果。

Aug, 2023

CodeEditorBench: 大型语言模型的代码编辑能力评估

通过 CodeEditorBench，我们为 LLMs 的代码编辑能力提供了一个可靠的评估平台，其中 19 个 LLMs 的评估结果表明闭源模型（特别是 Gemini-Ultra 和 GPT-4）在 CodeEditorBench 中优于开源模型，并突出了基于问题类型和提示敏感性的模型性能差异。

Apr, 2024

CodeScope: 一个基于执行的多语言多任务多维度基准评估工具，用于评估 LLMs 在代码理解和生成方面的能力

评估大型语言模型在编码任务上的能力的多维度、多语言、多任务评估基准 CodeScope 的引入和分析

Nov, 2023

CodeXGLUE：面向代码理解和生成的机器学习基准数据集

介绍了 CodeXGLUE 的数据集和模型评价平台，包括 10 个任务和三种基准系统，旨在促进机器学习在程序理解和生成方面的研究和开发。

Feb, 2021

DevBench：软件开发综合基准

最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而，现有的基准主要关注编程的简化或隔离方面，如单文件代码生成或存储库问题调试，无法全面衡量真实世界编程活动引发的各种挑战。为此，我们提出了 DevBench，这是一个全面的基准，评估 LLMs 在软件开发生命周期的各个阶段，包括软件设计、环境设置、实施、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域，具备高质量的数据收集，并为每个任务设计和验证了仔细设计的指标。经验证实证研究表明，包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中提出的挑战。分析显示，模型在理解存储库中的复杂结构、管理编译过程和掌握高级编程概念方面存在困难。我们的发现为未来 LLMs 的真实世界编程应用的发展提供了可行的洞察。我们的基准可以在此 https URL 获取。

Mar, 2024

HumanEval-XL：一种面向跨语言自然语言通用性的多语言代码生成评估基准

使用人工评估的大规模多语言代码生成基准，填补了在多语言代码生成领域中评估自然语言泛化能力的空白。

Feb, 2024

代码的大型语言模型的系统评估

通过对现有大型模型 (包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot) 的系统评估，我们填补了目前缺少大量模型和数据设计决策信息的空白，并提出了一个基于 GPT-2 架构的新模型 (PolyCoder)。我们发现虽然 Codex 本身并不是开源的，但现有的开源模型在某些编程语言上取得了接近的结果，并且在 C 编程语言中，PolyCoder 模型优于所有模型包括 Codex。

Feb, 2022

探索大型语言模型在解决编程问题中的鲁棒性

该研究探讨了大型语言模型在编程问题中的应用，发现最新技术如 InstructGPT 和 ChatGPT 在处理指令时表现优异，而早期使用变量名如 Codex 的模型的性能受描述问题时表浅的指标较大影响。

Jun, 2023