挑战前人未达之地：暴露代码生成评估中的偏见和不足

Jan, 2024

挑战前人未达之地：暴露代码生成评估中的偏见和不足

Boldly Going Where No Benchmark Has Gone Before: Exposing Bias and Shortcomings in Code Generation Evaluation

Ankit Yadav, Mayank Singh

TL;DR本研究对Python代码生成的两个广泛应用的基准测试——HumanEval和MBPP进行了大规模人工评估，重点关注它们的多样性与难度。研究结果发现，现有基准测试对少数编程概念存在显著偏向，而对大多数概念几乎没有或没有代表性的呈现。此外，研究还发现易于完成的编程问题所占比例极高，可能导致对模型在代码生成任务上性能的过高评价。

Abstract

Motivated by the increasing popularity of code generation from human descriptions using large language models (LLMs), several benchmarks h

发现论文，激发创造

使用APPS评估编码挑战能力

通过引入APPs基准，对编程语言生成进展进行了评估，并发现当前机器学习模型已经开始学会编码，然而在生成Python代码时仍存在语法错误

May, 2021

大语言模型的程序综合

本文探索了大型语言模型在通用编程语言的程序合成方面的局限性，并在新的基准测试中评估了这些模型的性能。作者在两个基准测试（MBPP和MathQA-Python）上测试了这些模型，结果表明这些模型的性能随着其大小的增加而呈现对数线性关系。他们研究了这些模型进行对话以及语意建模的能力，并发现即使是最好的模型也无法完全预测某些程序的输出。

Aug, 2021

发现代码生成中偏差的简单而有效方法

本文探究了现有代码生成系统中基于大型语言模型的偏见在特定情况下可能泄漏到生成代码中的问题，提出了一种自动消除提示并暴露各种偏见的框架，并将其应用于三个编码挑战中测试，发现代码生成模型存在特定提示结构和关键字的偏见，最后，我们展示了如何将我们的框架作为数据转换技术，这是更强大的代码生成方向。

Oct, 2022

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于GPT-3.5的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试oracle或参考文献的情况下，达到比CodeBERTScore更高的准确性和一致性。

Apr, 2023

ClassEval: 评估 LLMs 在类级别代码生成上的人工制作基准

我们首次尝试在更具挑战性的类级代码生成情景中评估LLMs，并构建了一个包括100个类级Python代码生成任务的基准测试集，通过对11种最新LLMs在类级代码生成任务上的研究，发现现有LLMs在类级代码生成上表现较差，GPT-4和GPT-3.5在类级代码生成上的表现卓越，而逐方法生成是其他模型更好的策略。

Aug, 2023

代码生成中使用的提示的质量评估

评估大型语言模型在代码生成方面的效果时，需要使用健全的基准测试，而不严谨的评估基准会提供虚假的性能表现。本研究分析了9个代码生成基准中的3,566个提示，以确定其中的质量问题，并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于Python和编码练习，且缺乏上下文依赖关系，同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高Python代码生成的性能，但对Java代码生成的改进不明显。此外，还发现GPT-3.5-Turbo和CodeGen-2.5模型可能存在数据污染问题。

Apr, 2024

低成本语言模型：Python代码生成的调研及性能评估

我们研究了大型语言模型在生成Python代码方面的优势和劣势，并提出了一种引导模型解决问题的思维链条提示，同时还提供了一个由60个不同难度级别的编程问题组成的数据集进行评估。

Apr, 2024

MHPP: 探索语言模型在基本代码生成之外的能力和局限性

最近大型语言模型（LLMs）在代码生成方面有了显著进展，但现有的基准测试无法全面评估LLMs在函数级代码生成能力方面的充分性。通过分析两个常见的基准测试（HumanEval和MBPP），我们的研究发现由于质量、难度和细度的限制，这些测试可能无法彻底评估LLMs的代码生成能力。因此，我们引入了“Mostly Hard Python Problems”（MHPP）数据集，包含140个独特的人类策划问题。通过将自然语言和代码推理相结合，MHPP评估了LLMs理解规范和限制、进行多步推理以及有效应用编码知识的能力。对22个LLMs使用MHPP的初步评估显示，在HumanEval上表现良好的模型在MHPP上往往无法取得类似的成功。此外，MHPP突显出各种以前未被发现的LLMs的限制，让我们相信它能为更好地理解LLMs的能力和限制铺平道路。数据集和代码可在此链接获取。

May, 2024

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

mHumanEval -- 用于代码生成的大型语言模型评估的多语言基准

本研究解决了当前代码生成基准在任务多样性、测试覆盖率和语言范围上的局限，尤其是低资源语言的代码生成尚未得到充分探讨。通过引入mHumanEval，一个支持200多种自然语言提示的扩展基准，研究团队采用了成熟的机器翻译方法和质量保障流程，显著提升了多语言代码生成能力的评估。最终分析揭示了当前跨语言代码生成的状态，推动了该领域的发展。

Oct, 2024