ReCode: 代码生成模型的健壮性评估

Dec, 2022

ReCode: 代码生成模型的健壮性评估

ReCode: Robustness Evaluation of Code Generation Models

Shiqi Wang, Zheng Li, Haifeng Qian, Chenghao Yang, Zijian Wang...

TL;DR本文提出一种针对代码生成模型综合鲁棒性评估的基准测试 ReCode，并定制了超过 30 种变形以评估模型的鲁棒性性能，同时提出了针对每种扰动类型的鲁棒性度量，重点观察了在 SOTA 模型上的表现，发现 CodeGen 比 InCoder 和 GPT-J 更具鲁棒性，模型对语法扰动最敏感，同时表明 MBPP 上的鲁棒性评估更具挑战。

Abstract

code generation models have achieved impressive performance. However, they tend to be brittle as slight edits to a prompt could lead to very different generations; these robustness properties, critical for user experience when deployed in real-life applications, are not well understood

code generation robustness evaluation benchmark perturbation syntax

发现论文，激发创造

CodeFort：代码生成模型的强化训练

用 CodeFort 框架提高代码生成模型的鲁棒性，通过丰富训练数据并采用多种训练策略，包括混合数据增强、批量数据增强、对抗性 Logits 对齐和对比学习，将基准 CodeGen 模型的平均鲁棒通过率从 14.79% 提高到 21.74%，尤其在对代码语法扰动的鲁棒性上，通过率的降低显著减少了从 95.04% 到 53.35%。

Apr, 2024

探索大型语言模型在解决编程问题中的鲁棒性

该研究探讨了大型语言模型在编程问题中的应用，发现最新技术如 InstructGPT 和 ChatGPT 在处理指令时表现优异，而早期使用变量名如 Codex 的模型的性能受描述问题时表浅的指标较大影响。

Jun, 2023

代码生成中使用的提示的质量评估

评估大型语言模型在代码生成方面的效果时，需要使用健全的基准测试，而不严谨的评估基准会提供虚假的性能表现。本研究分析了 9 个代码生成基准中的 3,566 个提示，以确定其中的质量问题，并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于 Python 和编码练习，且缺乏上下文依赖关系，同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高 Python 代码生成的性能，但对 Java 代码生成的改进不明显。此外，还发现 GPT-3.5-Turbo 和 CodeGen-2.5 模型可能存在数据污染问题。

Apr, 2024

大型语言模型代码生成的鲁棒性和可靠性研究

最近，大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而，对于 LLMs 生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括 1208 个编程问题的数据集 RobustAPI，用于评估 LLMs 生成的代码的可靠性和鲁棒性，并发现甚至对于 GPT-4 而言，62% 的生成代码存在 API 误用，这可能导致意想不到的后果。

Aug, 2023

代码生成模型的多语言评估

本文提出了新的基准测试，包括 MBXP，Multilingual HumanEval 和 MathQA-X，以测试多语言环境下代码生成模型的性能，并发现了多语言模型的优势，以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者还利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他与代码相关的评估任务中使用的合成规范解决方案。

Oct, 2022

NLPerturbator：研究代码 LLMs 对自然语言变化的稳健性

本文研究了大型语言模型在现实场景中自然语言描述的变化对于代码生成的影响，并提出了一个自动化框架 NLPerturbator 来对不同类别的描述进行扰动，发现扰动后的描述可以显著降低代码生成的性能。研究强调了提高大型语言模型对于现实场景中描述变化的鲁棒性的重要性，以及构建描述时的细致性。

Jun, 2024

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

探究大型语言模型在生成单元测试中的效果

该研究探讨了三种代码生成模型（CodeGen、Codex 和 GPT-3.5）在单元测试生成中的效果，发现 Codex 模型在 HumanEval 数据集中可以达到 80% 以上的覆盖率，但在 EvoSuite SF110 基准测试中，没有模型的覆盖率超过 2% 且生成的测试代码存在多种测试异味问题。

Apr, 2023

挑战前人未达之地：暴露代码生成评估中的偏见和不足

本研究对 Python 代码生成的两个广泛应用的基准测试 ——HumanEval 和 MBPP 进行了大规模人工评估，重点关注它们的多样性与难度。研究结果发现，现有基准测试对少数编程概念存在显著偏向，而对大多数概念几乎没有或没有代表性的呈现。此外，研究还发现易于完成的编程问题所占比例极高，可能导致对模型在代码生成任务上性能的过高评价。

Jan, 2024

对基于代码训练的大型语言模型的评估

本文介绍了从 GitHub 公开可用的代码细调的 Codex 语言模型，并研究了其 Python 代码编写能力。在新的评估集 HumanEval 上，我们的模型可解决 28.8% 的问题，并发现重复采样模型是解决难题的有效策略。但我们也发现其局限性，最终讨论了代码生成技术的潜在影响。

Jul, 2021