代码生成中使用的提示的质量评估

Apr, 2024

代码生成中使用的提示的质量评估

Quality Assessment of Prompts Used in Code Generation

Mohammed Latif Siddiq, Simantika Dristi, Joy Saha, Joanna C. S. Santos

TL;DR评估大型语言模型在代码生成方面的效果时，需要使用健全的基准测试，而不严谨的评估基准会提供虚假的性能表现。本研究分析了9个代码生成基准中的3,566个提示，以确定其中的质量问题，并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于Python和编码练习，且缺乏上下文依赖关系，同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高Python代码生成的性能，但对Java代码生成的改进不明显。此外，还发现GPT-3.5-Turbo和CodeGen-2.5模型可能存在数据污染问题。

Abstract

large language models (LLMs) are gaining popularity among software engineers. A crucial aspect of developing effective code-generation LLMs is to evaluate these models using a robust benchmark. Evaluation benchmarks with →

发现论文，激发创造

使用APPS评估编码挑战能力

通过引入APPs基准，对编程语言生成进展进行了评估，并发现当前机器学习模型已经开始学会编码，然而在生成Python代码时仍存在语法错误

May, 2021

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于GPT-3.5的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试oracle或参考文献的情况下，达到比CodeBERTScore更高的准确性和一致性。

Apr, 2023

StudentEval: 学生编写的大型语言模型代码提示基准

本研究设计了一个基于Python程序的新评测标准StudentEval,使用多个具体的非专家受试者编写的问题提示，对比评估了5种Code LLM模型的性能，结果表明这种评测标准是更好的模型性能判别标准。同时，研究还发现了学生提示技术的显著变异和LLM采样的不确定性可能会误导学生，这些发现对于使用Code LLMs进行教学具有影响。

Jun, 2023

ClassEval: 评估 LLMs 在类级别代码生成上的人工制作基准

我们首次尝试在更具挑战性的类级代码生成情景中评估LLMs，并构建了一个包括100个类级Python代码生成任务的基准测试集，通过对11种最新LLMs在类级代码生成任务上的研究，发现现有LLMs在类级代码生成上表现较差，GPT-4和GPT-3.5在类级代码生成上的表现卓越，而逐方法生成是其他模型更好的策略。

Aug, 2023

测试在不同级别的提示特异性下进行的代码生成的LLMs

评估了各种LLM在生成Python代码方面的性能，揭示了创建准确的Python函数的理想提示策略。

Nov, 2023

挑战前人未达之地：暴露代码生成评估中的偏见和不足

本研究对Python代码生成的两个广泛应用的基准测试——HumanEval和MBPP进行了大规模人工评估，重点关注它们的多样性与难度。研究结果发现，现有基准测试对少数编程概念存在显著偏向，而对大多数概念几乎没有或没有代表性的呈现。此外，研究还发现易于完成的编程问题所占比例极高，可能导致对模型在代码生成任务上性能的过高评价。

Jan, 2024

低成本语言模型：Python代码生成的调研及性能评估

我们研究了大型语言模型在生成Python代码方面的优势和劣势，并提出了一种引导模型解决问题的思维链条提示，同时还提供了一个由60个不同难度级别的编程问题组成的数据集进行评估。

Apr, 2024

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

大语言模型生成的代码有什么问题？一项广泛研究

使用大型语言模型进行代码生成的能力仍具有一定限制，代码生成的结果通常较为复杂且存在错误，通过研究相关的问题和推导出的漏洞类型，提出了一个训练自由的迭代方法来减少错误并增加合格率。

Jul, 2024

通过语言模型理解生成代码中的缺陷

本研究解决了大型语言模型(LLMs)代码生成的可靠性问题，特别是识别和分析生成代码中的缺陷。通过对367个缺陷进行分类和分析，发现了功能和算法错误是主要问题。研究表明，通过实施结构化的提示工程技术，可以显著减少常见缺陷，提高代码生成的准确性和可靠性。

Aug, 2024