InCoder：用于代码填充和合成的生成模型

Apr, 2022

InCoder：用于代码填充和合成的生成模型

InCoder: A Generative Model for Code Infilling and Synthesis

Daniel Fried, Armen Aghajanyan, Jessy Lin, Sida Wang, Eric Wallace...

TL;DR通过左到右生成和插值，InCoder 可以执行程序合成并编辑的任务。它是第一个可以直接执行零样本代码插值的生成模型，并在类型推断、注释生成和变量重命名等方面显示出优秀的性能。

Abstract

Code is seldom written in a single left-to-right pass and is instead repeatedly edited and refined. We introduce incoder, a unified generative model that can perform →

program synthesis editing incoder generative model code infilling

发现论文，激发创造

自我补充代码生成

本研究提出了一个融合自动回归解码的填充操作的通用代码生成框架，利用自我填充的特性实现非单调生成，提高对生成序列的控制，促进循环更新和同步，通过大量实验证明了我们提出的解码过程在提高代码生成质量和规则性方面的有效性。

Nov, 2023

JumpCoder: 在线修改加码器超越自回归编码器

将新代码插入当前生成的代码中，并通过辅助的填充模型和生成模型评分判断填充位置的有效性，以提升代码生成模型的性能。

Jan, 2024

InstructCoder：赋予语言模型在代码编辑中的能力

本研究使用大型语言模型（LLMs）和 InstructCoder 数据集，探索用户指令下的代码编辑，涵盖评论插入、代码优化和代码重构等多个隐含任务。实验证明，在 InstructCoder 数据集上对开源 LLMs 进行精细调整，能够大多数情况下正确地编辑代码，展现了前所未有的代码编辑性能水平。

Oct, 2023

生物编码器：基于上下文语用知识的生物信息学代码生成基准

基于预训练语言模型的生物信息学代码生成的基准评估 BioCoder 表明，领域知识、实际代码生成和上下文理解的重要性。

Aug, 2023

WizardCoder：用 Evol-Instruct 使大型语言模型掌握编程技能

本文介绍了 WizardCoder，它利用 Evol-Instruct 方法将复杂的指令微调应用于代码领域，通过对四个主要的代码生成基准进行全面实验，揭示了该模型的出色能力，并超越了所有其他开源 Code LLMs，甚至在 HumanEval 和 HumanEval + 上表现出秀。

Jun, 2023

提纲先行：句法引导的粗到细代码生成

通过提出 ChainCoder 程序合成语言模型，从粗到细地分多步生成 Python 代码，以此缓解编程思考的困难，该模型能与自然语言描述和语法对齐的 I /O 数据样本同时编码，这一方法已超越现有技术，并生成更高质量的解决方案。

Apr, 2023

UniXcoder：面向代码表示的统一跨模态预训练

本文提出了一种统一的跨模态预训练模型 UniXcoder，使用前缀适配器控制模型行为并使用语法树和代码注释等交叉模态内容来增强代码表示。同时，利用多模态内容进行对比学习以学习代码片段代表，并使用跨模态生成任务在编程语言之间进行表示的对齐。该模型在五个代码相关任务上取得了最先进的结果，而注释和 AST 可以增强该模型。

Mar, 2022

IRCoder: 中间表示使语言模型具有鲁棒性的多语言代码生成器

通过利用编译器中间表示来改进代码语言模型的多语言能力，并促进跨语言转换，该研究探讨了在代码语言模型中利用编译器中间表示的可行性和优势，构建了一个并行数据集 SLTrans，并通过对不同规模的代码语言模型进行连续因果语言建模训练，从而在各种代码生成任务和度量标准中实现了显著和一致的提升。

Mar, 2024

Magicoder：只需源代码

Magicoder 是一系列全面开源（代码、权重和数据）的大型语言模型（LLMs），通过使用 OSS-Instruct 来提供更多样化、更真实和可控的数据，从而消除了合成数据的固有偏见，显著缩小了与顶级代码模型的差距。

Dec, 2023

UniCoder: 通过通用编码扩展代码大规模语言模型

通过引入中间表示形式 UniCode，用大型语言模型 UniCoder 生成编码，显著提高了生成代码的质量并超越了以往的提示方法。

Jun, 2024