自我编辑：面向代码生成的故障感知代码编辑器

ACLMay, 2023

自我编辑：面向代码生成的故障感知代码编辑器

Self-Edit: Fault-Aware Code Editor for Code Generation

Kechi Zhang, Zhuo Li, Jia Li, Ge Li, Zhi Jin

TL;DR利用执行结果修正生成的代码，我们提出了一种基于人类编程阶段的生成和编辑方法来提高大型语言模型（LLM）在竞争性编程任务方面的代码质量，对使用不同参数大小的 9 种常见代码生成 LLM 在两个竞争性编程数据集上进行了广泛评估，相比于直接从 LLMs 生成的代码，我们的方法在 APP-dev 上的 pass@1 平均值提高了 89％，在 APPS-test 上提高了 31％，在 HumanEval 上提高了 48％，比其他后处理方法表现更优。

Abstract

large language models (LLMs) have demonstrated an impressive ability to generate codes on competitive programming tasks. However, with limited sample numbers, LLMs still suffer from poor accuracy. Inspired by the

large language models competitive programming code generation fault-aware code editor execution results

发现论文，激发创造

基于大语言模型的全自动编程

本文探讨了使用 Large Language Models 进行程序合成时，实现 Synthesize，Execute，Debug 方法的方法，包括替换或修复故障程序，以及不同基于模板和基于模型的提示生成技术，取得了比传统方法更好的表现。

Apr, 2023

故障感知神经代码排序器

该论文提出了一个名为 CodeRanker 的神经排序模型，可以预测采样生成程序的正确性和执行信息，从而提高各种代码生成模型的正确性。

Jun, 2022

CodeEditorBench: 大型语言模型的代码编辑能力评估

通过 CodeEditorBench，我们为 LLMs 的代码编辑能力提供了一个可靠的评估平台，其中 19 个 LLMs 的评估结果表明闭源模型（特别是 Gemini-Ultra 和 GPT-4）在 CodeEditorBench 中优于开源模型，并突出了基于问题类型和提示敏感性的模型性能差异。

Apr, 2024

GrACE: 使用相关代码编辑进行生成

使用先前的代码编辑知识赋予了智能代码生成大型语言模型 (LLMs) 先验知识，该模型的生成能力有助于解决代码更改的多样性以及对前期编辑的依赖，与常见的符号和神经方法相比，该方法使 LLMs 的性能显著提高了 29％和 54％。

May, 2023

使用 CodeT5 进行最小编辑的程序修复

通过精调预训练的 CodeT5 模型，在纠错编辑的过程中提供正确的程序建议，实验结果表明至少可以生成 100 个候选程序之一，并以最相似正确程序的平均编辑距离为 6.84，验证了语言模型在解决初级编程问题时提供最小编辑程序修复建议的有效性。

Sep, 2023

大型语言模型是否能编辑？评估其按照编程编辑指令的能力

通过一个仔细设计的代码编辑任务基准以及结合自然语言指令的训练集，我们评估了几个最先进的大型语言模型，并揭示了现有开源和闭源模型之间的显著差距。同时，我们展示了通过精细调优开源代码语言模型可以显著提高其代码编辑能力。

Dec, 2023

从自然语言问题描述生成功能正确的代码编辑

本文提出了将自然语言编程描述翻译为正确代码修改的任务 NL2Fix，为此引入了包含高级 Bug 修复描述的 Defects4J-NL2Fix 数据集，并对多种最先进的 LLMs 进行了实证评估，结果表明这些 LLMs 能够对 64.6% 的错误生成合理的修复，并且最佳 LLM 技术在此基准测试中可以达到 21.20% 的 top-1 和 35.68% 的 top-5 精度。

Apr, 2023

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

DeepCode AI Fix: 用大型语言模型修复安全漏洞

使用大型语言模型的程序修复任务中，通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集，我们的系统能够在更少的案例中准确匹配人工修复，并显著提升可用模型的性能。

Feb, 2024

CYCLE: 学习自我完善代码生成

我们提出了 CYCLE 框架，学习根据可用反馈（如测试套件报告的执行结果）来自我完善错误的生成，结果表明 CYCLE 成功地保持，有时提高了一次性代码生成的质量，同时显著提高了代码语言模型的自我完善能力。

Mar, 2024