CodeRL: 通过预训练模型和深度强化学习掌握代码生成

Jul, 2022

CodeRL: 通过预训练模型和深度强化学习掌握代码生成

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C.H. Hoi

TL;DRCodeRL 使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限，同时在 APPs 和 MBPP 基准测试中创造了新的 SOTA 结果。

Abstract

program synthesis or code generation aims to generate a program that satisfies a problem specification. Recent approaches using large-scale pretrained language models (LMs) have shown promising results, yet they

program synthesis pretrained language models deep reinforcement learning unit tests encoder-decoder

发现论文，激发创造

代码合成的自动生成单元测试数据与演员 - 评论者强化学习

自动获取适用于代码合成模型的强化学习训练数据，结合简单而有效的演员 - 评论家强化学习训练方案，提高预训练代码语言模型的性能。

Oct, 2023

基于深度强化学习的执行代码生成

利用深度强化学习算法的 PPOCoder 框架，将预训练编程语言模型与外部执行反馈相结合，用于自动化代码生成任务，并在多项实验中展示了其在编译成功率和语法正确性方面的显著效果。

Jan, 2023

StepCoder: 基于编译器反馈的强化学习提升代码生成

使用大型语言模型（LLMs）进行代码生成的研究，引入了一个新的强化学习框架 StepCoder，通过将代码生成任务拆分为完成代码片段的课程，以及屏蔽未执行代码段进行模型优化，成功解决了复杂人类需求下 RL 探索和模型优化的挑战，并通过构建 APPs + 数据集进行了实验验证。

Feb, 2024

利用强化学习和大型语言模型进行代码优化

提出了一种建立在大型语言模型和强化学习基础上的框架，用于减少代码优化的复杂性并提供更高的效率和可靠性。

Dec, 2023

使用编译器生成的强化学习反馈来调整代码模型

通过反馈机制在 Large Language Models 中引入编译器和参考程序的验证，提高了自动生成代码的正确性和可执行性，实验结果表明 RLCF 提高了 LLMs 在 Java MBJP 和 MathQA 任务中的表现。

May, 2023

RLTF：来自单元测试反馈的强化学习

利用强化学习提升大型语言模型的程序合成生成能力，通过采用多粒度的单元测试反馈信号来指导模型生成高质量代码。

Jul, 2023

B-Coder：基于价值的深度强化学习在程序合成中的应用

程序合成通过从自然语言描述中创建准确的可执行代码。本文研究了基于增强学习和预训练语言模型的价值方法在程序合成中的应用，并展示了其在性能上达到了最新水平。

Oct, 2023

CodeT5+: 用于代码理解和生成的开源大型语言模型

提出了一种名为 CodeT5 + 的编译器 - 解码器语言模型，具有灵活的组件模块和多样化的预训练任务，能够在不同的代码相关基准测试中取得最先进的结果，特别是在针对人类评估的代码生成任务中。

May, 2023

利用大型语言模型的强化学习修复代码安全漏洞

为了加强和增强通过 Large Language Models 生成的代码的安全性，在本文中，我们提出了一种基于强化学习的程序特定修复方法，结合语义和句法奖励机制，重点关注在代码中增加安全和功能性措施。

Jan, 2024

基于深度强化学习的自动源代码摘要改进

本文提出一种基于 Actor-Critic 模型和抽象语法树的深度强化学习框架，用于代码摘要。该模型在训练时采用 BLEU 指标进行奖励，实验证明该模型在真实世界数据集上的表现优于一些最先进的方法。

Nov, 2018