HumanEval-XL：一种面向跨语言自然语言通用性的多语言代码生成评估基准

COLINGFeb, 2024

HumanEval-XL：一种面向跨语言自然语言通用性的多语言代码生成评估基准

HumanEval-XL: A Multilingual Code Generation Benchmark for Cross-lingual Natural Language Generalization

Qiwei Peng, Yekun Chai, Xuhong Li

TL;DR使用人工评估的大规模多语言代码生成基准，填补了在多语言代码生成领域中评估自然语言泛化能力的空白。

Abstract

large language models (LLMs) have made significant progress in generating codes from textual prompts. However, existing benchmarks have mainly concentrated on translating English prompts to multilingual codes or have been constrained to very limited natural languages (NLs). These bench

large language models code generation massively multilingual humaneval-xl evaluation

发现论文，激发创造

代码生成模型的多语言评估

本文提出了新的基准测试，包括 MBXP，Multilingual HumanEval 和 MathQA-X，以测试多语言环境下代码生成模型的性能，并发现了多语言模型的优势，以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者还利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他与代码相关的评估任务中使用的合成规范解决方案。

Oct, 2022

RealHumanEval: 评估大型语言模型对程序员的支持能力

通过使用 RealHumanEval、静态基准以及优先度度量，研究了大型语言模型（LLMs）在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力，但基准性能与人类表现之间的差距并不成比例，同时程序员的偏好与实际表现并无关联，这促使我们需要更好、以人为中心的评估指标。同时，我们公开了 RealHumanEval 工具和研究数据以促进代码模型的改进。

Apr, 2024

通过严格评估大型语言模型来生成代码，确定 ChatGPT 生成的代码是否真正正确

使用 EvalPlus 框架对大型语言模型进行代码综合基准测试，通过自动生成测试输入来扩充现有基准测试集，发现并降低了 LLM 合成代码的错误率，揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。

May, 2023

NaturalCodeBench: 检视 HumanEval 和自然用户提示对编码性能不匹配的问题

大型语言模型在生产性活动的代码生成方面表现出强大的能力。然而，当前的代码合成基准主要面向算法和数据科学的入门任务，在真实世界的编码中对具有挑战性的要求不够满足。为了填补这一差距，我们提出了 NaturalCodeBench（NCB）作为一个具有挑战性的代码基准，旨在模拟真实编码任务的复杂性和多样性。NCB 由来自在线编码服务的自然用户查询中精心挑选的 402 个高质量问题组成，涵盖了 6 个不同领域。我们还引入了半自动化流程来提高测试用例构建的效率，相比手动解决方案，效率提高了 4 倍以上。我们对 39 个大型语言模型进行了系统实验，发现在 NCB 上，具有接近 HumanEval 评分的模型之间的性能差距仍然可能很大，表明对实际代码合成场景的关注不足或在 HumanEval 上过度优化。另一方面，即使是表现最佳的 GPT-4 在 NCB 上仍然远未令人满意。评估工具和开发集可在此 URL 获取。

May, 2024

CodeGeeX: 一个基于预训练的多语言代码生成模型及其在 HumanEval-X 上的评价

本文介绍 CodeGeeX，一个具有 130 亿参数的多语言预训练代码生成模型。通过 extensive experiments，CodeGeeX 在 HumanEval-X 上表现出比其他类似规模的多语言代码模型更好的代码生成和转换性能。通过对 Visual Studio Code、JetBrains 和 Cloud Studio 进行扩展，CodeGeeX 可以为活跃用户生成 47 亿个 tokens，并帮助 83.4％的用户提高编码效率。

Mar, 2023

StudentEval: 学生编写的大型语言模型代码提示基准

本研究设计了一个基于 Python 程序的新评测标准 StudentEval, 使用多个具体的非专家受试者编写的问题提示，对比评估了 5 种 Code LLM 模型的性能，结果表明这种评测标准是更好的模型性能判别标准。同时，研究还发现了学生提示技术的显著变异和 LLM 采样的不确定性可能会误导学生，这些发现对于使用 Code LLMs 进行教学具有影响。

Jun, 2023

PARIKSHA：多语言和跨文化数据上人类 LLM 评估者一致性的大规模调查

本研究评估了多语种大型语言模型的性能，发现 GPT-4o 和 Llama-3 70B 模型在大多数 Indic 语言中表现最佳。我们构建了两个评估设置的排行榜，并分析了人类评估和语言模型评估之间的一致性，发现在两两比较的设置下，人类和语言模型的一致性较高，但在直接评估中特别是对于孟加拉语和奥迪亚语等语言，一致性下降。我们还检测了人类和语言模型评估中的各种偏见，并发现 GPT 评估器存在自我偏见。本研究对多语种大型语言模型的评估具有重要意义。

Jun, 2024

OMGEval：一个开放的多语言生成评估基准测试用于大型语言模型

现代大型语言模型 (LLMs) 的研究旨在帮助世界各地的不同文化背景的个人，然而，先前的高级生成式评估基准主要针对英文。为此，我们介绍了 OMGEval，这是第一个可以评估 LLMs 在不同语言中的能力的开源多语言生成性测试集。OMGEval 为每种语言提供了 804 个开放性问题，涵盖了 LLMs 的各种重要能力，如一般知识、逻辑推理等。每个问题都经过人类标注者的严格验证。值得注意的是，为了充分反映 LLMs 在不同文化背景下的兼容性，我们对每种非英文语言进行了本土化处理。目前的版本包括 5 种语言（即，中文、俄语、法语、西班牙语、阿拉伯语）。在 AlpacaEval 的基础上，我们采用 GPT-4 作为仲裁者来自动评分不同的模型输出，证明其与人工评估密切相关。我们在提出的 OMGEval 上评估了几个代表性的多语言 LLMs，我们相信这将为研究共同体进一步理解和改进 LLMs 的多语言能力提供有价值的参考。OMGEval 可以在此 URL 找到。

Feb, 2024

2023 Eval4NLP 子任务：使用促使大型语言模型作为解释性⽅法的度量

介绍了 Eval4NLP 2023 共享任务，要求参与者在机器翻译和摘要评估中探索提示和分数提取，并评估了参与者的方法。在没有 fine-tuning 的限制下，最佳系统的表现与使用更大模型开发的最新的无参考度量标准（包括 GEMBA 和 Comet-Kiwi-XXL）相媲美甚至超过，并对 LLMs 的解释的可行性进行了小规模人类评估。

Oct, 2023

METAL：面向多语言元评估

我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架，并创建了一个用于评估 LLM-based 评估器的精心策划的数据集，该数据集覆盖 10 种语言，包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能，结果表明，基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好，而 GPT-3.5-Turbo 的表现不佳。此外，我们对 LLM-based 评估器提供的推理进行分析，发现它往往与人类评判所提供的推理不一致。

Apr, 2024