具备编译器反馈的可编译神经代码生成

ACLMar, 2022

具备编译器反馈的可编译神经代码生成

Compilable Neural Code Generation with Compiler Feedback

Xin Wang, Yasheng Wang, Yao Wan, Fei Mi, Yitong Li...

TL;DR本文提出了一种名为 COMPCODER 的三阶段编译反馈机制，采用编译器反馈来生成可编译的代码，实验结果显示该方法的成功编译率从 44.18％提升至 89.18％。

Abstract

Automatically generating compilable programs with (or without) natural language descriptions has always been a touchstone problem for computational linguistics and automated software engineering. Existing deep-learning approaches model →

code generation compilable code deep learning computational linguistics automated software engineering

发现论文，激发创造

CompCodeVet：一种基于编译器引导的编码数据集验证和增强方法

通过使用编译器作为教师，我们提出了 CompCodeVet，一种由编译器引导的 CoT 方法，用于从非可编译代码生成可编译代码。在两个开源代码数据集上对 CompCodeVet 的评估结果表明，CompCodeVet 具有改善 LLMs 训练数据集质量的能力。

Nov, 2023

基于深度强化学习的执行代码生成

利用深度强化学习算法的 PPOCoder 框架，将预训练编程语言模型与外部执行反馈相结合，用于自动化代码生成任务，并在多项实验中展示了其在编译成功率和语法正确性方面的显著效果。

Jan, 2023

从自然语言文本生成 Java 代码的现有技术方法综述

本文主要综述了深度学习模型在 Java 代码生成任务中的进展和发展，涉及到自然语言处理、基于 RNN 和 Transformer 的模型、CONCODE 数据集等方面，并对存在的方法、数据集、评估指标、未来发展等方面进行了详细介绍。

Jun, 2023

StepCoder: 基于编译器反馈的强化学习提升代码生成

使用大型语言模型（LLMs）进行代码生成的研究，引入了一个新的强化学习框架 StepCoder，通过将代码生成任务拆分为完成代码片段的课程，以及屏蔽未执行代码段进行模型优化，成功解决了复杂人类需求下 RL 探索和模型优化的挑战，并通过构建 APPs + 数据集进行了实验验证。

Feb, 2024

自适应神经编译

该论文提出了一种自适应神经编译框架来解决高效节目的学习问题，并展示了如何使用可微表示将程序编译为不同 iable 的表示，并通过考虑输入数据分布来优化这种表示，以实现为给定数据分布学习特定调整算法的目标。

May, 2016

CodeRL: 通过预训练模型和深度强化学习掌握代码生成

CodeRL 使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限，同时在 APPs 和 MBPP 基准测试中创造了新的 SOTA 结果。

Jul, 2022

源代码合成与完成的神经模型

本研究提出了一种基于序列到序列深度学习模型的自然语言到编程语言的建议系统，可以根据自然语言的意图建议源代码片段，并扩展源代码的自动补全功能。该系统通过上下文感知的神经模型直接生成源代码标记，而不是从源代码生成解析树 / 抽象意义表示再转换成源代码。此外，提出的架构还使用预训练策略和数据增强技术来提高性能，并且在 BLEU-4 指标上超过了神经语义解析器 TranX 的表现约 10.82%。该系统还可以用于生成源代码的自然语言文档，并提出了基于 RoBERTa 的掩码语言模型来扩展该系统用于代码补全。

Feb, 2024

AI 辅助编程的大代码的自然语言生成与理解：综述

该研究论文综述了自然语言处理技术的利用，重点关注使用大型代码训练的基于 Transformer 的大型语言模型在 AI 辅助编程任务领域中的应用。这些模型在包括代码生成、代码补全、代码翻译、代码概述、缺陷检测和克隆检测等 AI 辅助编程应用中扮演着关键角色，而其中值得注意的例子包括由 OpenAI 的 Codex 和 DeepMind AlphaCode 提供支持的 GitHub Copilot。本文概述了主要的大型语言模型及其在与 AI 辅助编程相关的下游任务中的应用，并探讨了在这些应用中结合 NLP 技术和软件自然性面临的挑战和机遇，同时讨论了将 AI 辅助编程能力拓展到苹果的 Xcode 移动软件开发环境中的问题和机会，以使开发人员能够获得更先进的编码辅助，并使软件开发流程更加高效。

Jul, 2023

AgentCoder: 基于多智能体的代码生成与迭代测试优化

介绍了一种名为 Multi-Agent Assistant Code Generation（AgentCoder）的新方法，它使用专门的程序员代理、测试设计师代理和测试执行代理来协同生成代码，解决了代码生成和测试用例生成之间的平衡问题，并在实验中表现出优于现有模型的性能。

Dec, 2023

使用代码生成语言模型进行自编程人工智能

本文介绍了一种能够修改自身源代码的自编程人工智能系统，通过应用基于 AI 的代码生成，实现了对自身深度学习模型设计和学习动态的算法优化，证明了其能够成功地改进自身性能，并编程子模型来执行辅助任务。

Apr, 2022