StepCoder: 基于编译器反馈的强化学习提升代码生成

Feb, 2024

StepCoder: 基于编译器反馈的强化学习提升代码生成

StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback

Shihan Dou, Yan Liu, Haoxiang Jia, Limao Xiong, Enyu Zhou...

TL;DR使用大型语言模型（LLMs）进行代码生成的研究，引入了一个新的强化学习框架 StepCoder，通过将代码生成任务拆分为完成代码片段的课程，以及屏蔽未执行代码段进行模型优化，成功解决了复杂人类需求下 RL 探索和模型优化的挑战，并通过构建 APPs + 数据集进行了实验验证。

Abstract

The advancement of large language models (LLMs) has significantly propelled the field of code generation. Previous work integrated reinforcement

large language models code generation reinforcement learning compiler feedback optimization

发现论文，激发创造

CodeRL: 通过预训练模型和深度强化学习掌握代码生成

CodeRL 使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限，同时在 APPs 和 MBPP 基准测试中创造了新的 SOTA 结果。

Jul, 2022

基于深度强化学习的执行代码生成

利用深度强化学习算法的 PPOCoder 框架，将预训练编程语言模型与外部执行反馈相结合，用于自动化代码生成任务，并在多项实验中展示了其在编译成功率和语法正确性方面的显著效果。

Jan, 2023

使用编译器生成的强化学习反馈来调整代码模型

通过反馈机制在 Large Language Models 中引入编译器和参考程序的验证，提高了自动生成代码的正确性和可执行性，实验结果表明 RLCF 提高了 LLMs 在 Java MBJP 和 MathQA 任务中的表现。

May, 2023

利用强化学习和大型语言模型进行代码优化

提出了一种建立在大型语言模型和强化学习基础上的框架，用于减少代码优化的复杂性并提供更高的效率和可靠性。

Dec, 2023

RLTF：来自单元测试反馈的强化学习

利用强化学习提升大型语言模型的程序合成生成能力，通过采用多粒度的单元测试反馈信号来指导模型生成高质量代码。

Jul, 2023

代码合成的自动生成单元测试数据与演员 - 评论者强化学习

自动获取适用于代码合成模型的强化学习训练数据，结合简单而有效的演员 - 评论家强化学习训练方案，提高预训练代码语言模型的性能。

Oct, 2023

具备编译器反馈的可编译神经代码生成

本文提出了一种名为 COMPCODER 的三阶段编译反馈机制，采用编译器反馈来生成可编译的代码，实验结果显示该方法的成功编译率从 44.18％提升至 89.18％。

Mar, 2022

MapCoder: 多智能体编码生成竞争问题求解

使用多智能体提示的新方法进行代码生成任务，利用四个特定设计的语言模型代理模拟人类开发者在程序综合的全部周期中观察到的阶段，展示出优秀的代码生成能力并取得新的最先进结果。

May, 2024

JumpCoder: 在线修改加码器超越自回归编码器

将新代码插入当前生成的代码中，并通过辅助的填充模型和生成模型评分判断填充位置的有效性，以提升代码生成模型的性能。

Jan, 2024

PanGu-Coder2: 通过排名反馈提升代码的大规模语言模型

通过 RRTF (Rank Responses to align Test&Teacher Feedback) 框架，我们提出了 PanGu-Coder2，它在 OpenAI HumanEval 基准测试中实现了 62.20% 的 pass@1，并通过对 CoderEval 和 LeetCode 基准测试的广泛评估显示，PanGu-Coder2 始终优于所有之前的 Code LLMs。

Jul, 2023