具备编译器反馈的可编译神经代码生成
通过使用编译器作为教师,我们提出了 CompCodeVet,一种由编译器引导的 CoT 方法,用于从非可编译代码生成可编译代码。在两个开源代码数据集上对 CompCodeVet 的评估结果表明,CompCodeVet 具有改善 LLMs 训练数据集质量的能力。
Nov, 2023
利用深度强化学习算法的 PPOCoder 框架,将预训练编程语言模型与外部执行反馈相结合,用于自动化代码生成任务,并在多项实验中展示了其在编译成功率和语法正确性方面的显著效果。
Jan, 2023
本文主要综述了深度学习模型在 Java 代码生成任务中的进展和发展,涉及到自然语言处理、基于 RNN 和 Transformer 的模型、CONCODE 数据集等方面,并对存在的方法、数据集、评估指标、未来发展等方面进行了详细介绍。
Jun, 2023
使用大型语言模型(LLMs)进行代码生成的研究,引入了一个新的强化学习框架 StepCoder,通过将代码生成任务拆分为完成代码片段的课程,以及屏蔽未执行代码段进行模型优化,成功解决了复杂人类需求下 RL 探索和模型优化的挑战,并通过构建 APPs + 数据集进行了实验验证。
Feb, 2024
该论文提出了一种自适应神经编译框架来解决高效节目的学习问题,并展示了如何使用可微表示将程序编译为不同 iable 的表示,并通过考虑输入数据分布来优化这种表示,以实现为给定数据分布学习特定调整算法的目标。
May, 2016
CodeRL 使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限,同时在 APPs 和 MBPP 基准测试中创造了新的 SOTA 结果。
Jul, 2022
本研究提出了一种基于序列到序列深度学习模型的自然语言到编程语言的建议系统,可以根据自然语言的意图建议源代码片段,并扩展源代码的自动补全功能。该系统通过上下文感知的神经模型直接生成源代码标记,而不是从源代码生成解析树 / 抽象意义表示再转换成源代码。此外,提出的架构还使用预训练策略和数据增强技术来提高性能,并且在 BLEU-4 指标上超过了神经语义解析器 TranX 的表现约 10.82%。该系统还可以用于生成源代码的自然语言文档,并提出了基于 RoBERTa 的掩码语言模型来扩展该系统用于代码补全。
Feb, 2024
该研究论文综述了自然语言处理技术的利用,重点关注使用大型代码训练的基于 Transformer 的大型语言模型在 AI 辅助编程任务领域中的应用。这些模型在包括代码生成、代码补全、代码翻译、代码概述、缺陷检测和克隆检测等 AI 辅助编程应用中扮演着关键角色,而其中值得注意的例子包括由 OpenAI 的 Codex 和 DeepMind AlphaCode 提供支持的 GitHub Copilot。本文概述了主要的大型语言模型及其在与 AI 辅助编程相关的下游任务中的应用,并探讨了在这些应用中结合 NLP 技术和软件自然性面临的挑战和机遇,同时讨论了将 AI 辅助编程能力拓展到苹果的 Xcode 移动软件开发环境中的问题和机会,以使开发人员能够获得更先进的编码辅助,并使软件开发流程更加高效。
Jul, 2023
介绍了一种名为 Multi-Agent Assistant Code Generation(AgentCoder)的新方法,它使用专门的程序员代理、测试设计师代理和测试执行代理来协同生成代码,解决了代码生成和测试用例生成之间的平衡问题,并在实验中表现出优于现有模型的性能。
Dec, 2023
本文介绍了一种能够修改自身源代码的自编程人工智能系统,通过应用基于 AI 的代码生成,实现了对自身深度学习模型设计和学习动态的算法优化,证明了其能够成功地改进自身性能,并编程子模型来执行辅助任务。
Apr, 2022