PPM：用于基准代码生成模型测试的多样化编程问题的自动生成

Jan, 2024

PPM：用于基准代码生成模型测试的多样化编程问题的自动生成

PPM: Automated Generation of Diverse Programming Problems for Benchmarking Code Generation Models

Simin Chen, Xiaoning Feng, Xiaohong Han, Cong Liu, Wei Yang

TL;DR我们提出了编程问题合并（PPM）的概念，并提供了两种实现方法，我们使用我们的工具在两个广泛使用的数据集上，并使用八个代码生成模型将其与九种基准方法进行了比较，结果表明，与基准相比，我们的工具在生成更具挑战性、多样化和自然的编程问题方面更具有效性。

Abstract

In recent times, a plethora of large code generation models (LCGMs) have been proposed, showcasing significant potential in assisting developers with complex programming tasks. →

large code generation models benchmarking programming problems programming problem merging code generation models

发现论文，激发创造

使用变形提示测试验证 LLM 生成的程序

我们提出了一种称为变质提示测试的新颖解决方案，用于解决由大型语言模型生成的代码质量和正确性所引发的挑战，并在 HumanEval 评估中显示，该方法能够检测到由 GPT-4 生成的错误程序的 75％，误报率为 8.6％。

Jun, 2024

与提示问题的交互：使用大型语言模型进行编程教学的新方法

通过 Prompt Problems 的方法，我们提出了一种新的教授编程的方式，学生可以通过将问题转化为语言模型（LLMs）所能理解的提示来解决编程问题，并且我们展示了这个工具的设计、学生使用情况以及将 LLMs 整合到设计工具中所带来的新型编程问题和洞见。

Jan, 2024

LLM 基于代码生成与软件开发流程的结合

介绍了 LCG 软件代码生成框架，该框架利用多个大型语言模型（LLM）代理模拟各种软件过程模型，通过协同努力不断优化自身以提高代码质量。通过四个代码生成基准的评估结果表明，LCGScrum 模型在各项评估中表现优异，超过 GPT 平均 15%。分析结果显示开发活动对生成的代码有明显影响，设计和代码审查能增强异常处理，而设计、测试和代码审查则能减轻代码缺陷。GPT3.5 模型版本的变化对结果有显著影响，强调了采用软件过程模型增强 LLM 生成代码质量和一致性的重要性。

Mar, 2024

MHPP: 探索语言模型在基本代码生成之外的能力和局限性

最近大型语言模型（LLMs）在代码生成方面有了显著进展，但现有的基准测试无法全面评估 LLMs 在函数级代码生成能力方面的充分性。通过分析两个常见的基准测试（HumanEval 和 MBPP），我们的研究发现由于质量、难度和细度的限制，这些测试可能无法彻底评估 LLMs 的代码生成能力。因此，我们引入了 “Mostly Hard Python Problems”（MHPP）数据集，包含 140 个独特的人类策划问题。通过将自然语言和代码推理相结合，MHPP 评估了 LLMs 理解规范和限制、进行多步推理以及有效应用编码知识的能力。对 22 个 LLMs 使用 MHPP 的初步评估显示，在 HumanEval 上表现良好的模型在 MHPP 上往往无法取得类似的成功。此外，MHPP 突显出各种以前未被发现的 LLMs 的限制，让我们相信它能为更好地理解 LLMs 的能力和限制铺平道路。数据集和代码可在此链接获取。

May, 2024

基于条件生成的大型语言模型性能基准测试

本文提出如何将 PLMs 应用到现有应用程序特定的生成基准上，对输入和输出语言等不同维度的 PLMs 在自然语言生成任务方面的优点和局限性进行了深入的实证研究，并分享了在开发新 PLMs 时考虑到的基准生成能力的最佳实践。

Jun, 2023

基于大语言模型的全自动编程

本文探讨了使用 Large Language Models 进行程序合成时，实现 Synthesize，Execute，Debug 方法的方法，包括替换或修复故障程序，以及不同基于模板和基于模型的提示生成技术，取得了比传统方法更好的表现。

Apr, 2023

代码生成中使用的提示的质量评估

评估大型语言模型在代码生成方面的效果时，需要使用健全的基准测试，而不严谨的评估基准会提供虚假的性能表现。本研究分析了 9 个代码生成基准中的 3,566 个提示，以确定其中的质量问题，并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于 Python 和编码练习，且缺乏上下文依赖关系，同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高 Python 代码生成的性能，但对 Java 代码生成的改进不明显。此外，还发现 GPT-3.5-Turbo 和 CodeGen-2.5 模型可能存在数据污染问题。

Apr, 2024

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

PECC：问题提取与编码挑战

通过 PECC 我们引入了一个新的基准，从 Advent of Code (AoC) 和 Project Euler 派生，旨在评估大型语言模型对嵌入式问题的理解和生成可执行代码的能力，进而成为通用问题解决器。

Apr, 2024

挑战前人未达之地：暴露代码生成评估中的偏见和不足

本研究对 Python 代码生成的两个广泛应用的基准测试 ——HumanEval 和 MBPP 进行了大规模人工评估，重点关注它们的多样性与难度。研究结果发现，现有基准测试对少数编程概念存在显著偏向，而对大多数概念几乎没有或没有代表性的呈现。此外，研究还发现易于完成的编程问题所占比例极高，可能导致对模型在代码生成任务上性能的过高评价。

Jan, 2024