GrACE: 使用相关代码编辑进行生成

May, 2023

GrACE: Generation using Associated Code Edits

Priyanshu Gupta, Avishree Khare, Yasharth Bajpai, Saikat Chakraborty, Sumit Gulwani...

TL;DR使用先前的代码编辑知识赋予了智能代码生成大型语言模型 (LLMs) 先验知识，该模型的生成能力有助于解决代码更改的多样性以及对前期编辑的依赖，与常见的符号和神经方法相比，该方法使 LLMs 的性能显著提高了 29％和 54％。

Abstract

Developers expend a significant amount of time in editing code for a variety of reasons such as bug fixing or adding new features. Designing effective methods to predict code edits has been an active yet challenging area of research due to the diversity of →

code edits large language models prior edits generative capability performance

发现论文，激发创造

大型语言模型是否能编辑？评估其按照编程编辑指令的能力

通过一个仔细设计的代码编辑任务基准以及结合自然语言指令的训练集，我们评估了几个最先进的大型语言模型，并揭示了现有开源和闭源模型之间的显著差距。同时，我们展示了通过精细调优开源代码语言模型可以显著提高其代码编辑能力。

Dec, 2023

InstructCoder：赋予语言模型在代码编辑中的能力

本研究使用大型语言模型（LLMs）和 InstructCoder 数据集，探索用户指令下的代码编辑，涵盖评论插入、代码优化和代码重构等多个隐含任务。实验证明，在 InstructCoder 数据集上对开源 LLMs 进行精细调整，能够大多数情况下正确地编辑代码，展现了前所未有的代码编辑性能水平。

Oct, 2023

基于大型语言模型的多语言代码协同演化

使用大语言模型（LLMs），将代码更改从一种编程语言翻译成另一种编程语言，通过设计和实现名为 Codeditor 的第一个 LLM，我们发现它在所有常用的自动指标上都大幅超越了现有的方法，并且与现有的生成模型配合使用可以获得更好的性能。

Jul, 2023

CodeEditor：使用预训练模型学习编辑源代码

本研究提出了一种专门针对代码编辑的预训练任务，并提出了一个名为 CodeEditor 的有效预训练代码编辑模型。通过该任务的预训练进一步提高了代码编辑模型的性能和泛化能力，并优于 SOTA 基线。

Oct, 2022

自我编辑：面向代码生成的故障感知代码编辑器

利用执行结果修正生成的代码，我们提出了一种基于人类编程阶段的生成和编辑方法来提高大型语言模型（LLM）在竞争性编程任务方面的代码质量，对使用不同参数大小的 9 种常见代码生成 LLM 在两个竞争性编程数据集上进行了广泛评估，相比于直接从 LLMs 生成的代码，我们的方法在 APP-dev 上的 pass@1 平均值提高了 89％，在 APPS-test 上提高了 31％，在 HumanEval 上提高了 48％，比其他后处理方法表现更优。

May, 2023

CodeT5+: 用于代码理解和生成的开源大型语言模型

提出了一种名为 CodeT5 + 的编译器 - 解码器语言模型，具有灵活的组件模块和多样化的预训练任务，能够在不同的代码相关基准测试中取得最先进的结果，特别是在针对人类评估的代码生成任务中。

May, 2023

利用上下文变化进行多轮代码自动编辑的协作编辑器

本文通过 Coeditor 模型采用一系列的技术手段，包括 CodeT5 模型和编辑历史的利用，使得代码的自动编辑任务在单轮和多轮任务中都能得到良好地解决。该模型在 Python 开源项目中得到验证，并可作为 VSCode 插件进行互动式使用。

May, 2023

CodeIE：大型代码生成模型比小规模模型更适用于少样本信息提取

本文提出利用 Code-LLMs 如 Codex 代替 NL-LLMs，通过设计以代码为形式的提示和将 IE 任务制定为代码生成任务，有效地解决了信息提取任务的难题，并在七个基准测试中显示其优越性。

May, 2023

用于建模源代码编辑的神经网络

本研究开发了多种神经网络模型，利用合成数据测试模型的编辑模式学习能力，从原型生成下一步的编辑行为。文章提出了一种新颖的 “注意力” 和 “指针” 网络的组合模型能够最大化地提高性能和可伸缩性，应用结果初步证明了开发可以习得预测未来编辑的工具的可行性。

Apr, 2019

使用 CodeT5 进行最小编辑的程序修复

通过精调预训练的 CodeT5 模型，在纠错编辑的过程中提供正确的程序建议，实验结果表明至少可以生成 100 个候选程序之一，并以最相似正确程序的平均编辑距离为 6.84，验证了语言模型在解决初级编程问题时提供最小编辑程序修复建议的有效性。

Sep, 2023