基于执行反馈和强化学习的代码大语言模型基础研究

Oct, 2024

基于执行反馈和强化学习的代码大语言模型基础研究

RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning

Jonas Gehring, Kunhao Zheng, Jade Copet, Vegard Mella, Taco Cohen...

TL;DR本研究针对现有大型语言模型在代码合成中的反馈利用不足的问题，提出了一种端到端的强化学习方法，以增强模型对执行反馈的利用。实验结果表明，所提方法在竞争性编程任务中取得了新的最优成果，并显著降低了所需样本量，展示了模型在多步骤中有效利用自动反馈的能力。

Abstract

Large Language Models (LLMs) deployed as agents solve user-specified tasks over multiple steps while keeping the required manual engagement to a minimum. Crucially, such LLMs need to ground their generations in any feedback obtained to reliably achieve desired outcomes. We propose an e

发现论文，激发创造

CodeRL: 通过预训练模型和深度强化学习掌握代码生成

CodeRL使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限，同时在APPs和MBPP基准测试中创造了新的SOTA结果。

Jul, 2022

使用编译器生成的强化学习反馈来调整代码模型

通过反馈机制在 Large Language Models 中引入编译器和参考程序的验证，提高了自动生成代码的正确性和可执行性，实验结果表明 RLCF 提高了 LLMs 在 Java MBJP 和 MathQA 任务中的表现。

May, 2023

RLTF：来自单元测试反馈的强化学习

利用强化学习提升大型语言模型的程序合成生成能力，通过采用多粒度的单元测试反馈信号来指导模型生成高质量代码。

Jul, 2023

代码合成的自动生成单元测试数据与演员-评论者强化学习

自动获取适用于代码合成模型的强化学习训练数据，结合简单而有效的演员-评论家强化学习训练方案，提高预训练代码语言模型的性能。

Oct, 2023

利用强化学习和大型语言模型进行代码优化

提出了一种建立在大型语言模型和强化学习基础上的框架，用于减少代码优化的复杂性并提供更高的效率和可靠性。

Dec, 2023

StepCoder: 基于编译器反馈的强化学习提升代码生成

使用大型语言模型（LLMs）进行代码生成的研究，引入了一个新的强化学习框架StepCoder，通过将代码生成任务拆分为完成代码片段的课程，以及屏蔽未执行代码段进行模型优化，成功解决了复杂人类需求下RL探索和模型优化的挑战，并通过构建APPs+数据集进行了实验验证。

Feb, 2024

使用强化学习训练大型语言模型进行推理

从人类反馈中进行强化学习（RLHF）已成为将LLM输出与人类偏好对齐的一种主要方法。受RLHF成功的启发，我们研究了从反馈中学习（Expert Iteration，Proximal Policy Optimization（PPO），Return-Conditioned RL）对改善LLM推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为LLM提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态，包括有和没有经过监督微调（SFT）数据的情况开始研究。总的来说，我们发现所有算法的性能相当，大多数情况下Expert Iteration的性能最佳。令人惊讶的是，我们发现Expert Iteration的样本复杂度与PPO相似，需要最多约$10^6$个样本从预训练检查点收敛。我们研究了为什么会这样，并得出结论，在RL训练期间，模型未能在SFT模型已经产生的解之外进行显着的探索。此外，我们讨论了SFT训练期间maj@1和pass@96度量性能之间的取舍，并且相反，RL训练同时改善了两者。最后，我们讨论了我们的发现对RLHF和LLM微调中RL的未来角色的影响。

Mar, 2024

性能对齐的LLM用于生成高效代码

通过引入强化学习的方法，将代码LMM的输出与性能对齐，提高生成代码的期望加速比，并在一组基准任务中展示了0.9至1.6倍的串行代码速度提升和1.9至4.5倍的OpenMP代码速度提升。

Apr, 2024

RLSF: 强化学习来自符号反馈

我们提出了一种名为符号反馈强化学习（RLSF）的新型训练/微调范式，旨在增强LLMs的推理能力，并通过使用证明等符号工具来提供精确的奖励信号，从而从传统方法中克服了局限性。

May, 2024

在RLHF中进行政策过滤以微调LLM进行代码生成

本研究解决了现有的强化学习从人类反馈中（RLHF）在代码生成任务中的奖励模型不准确的问题。通过引入政策过滤（PF-PPO），该方法提高了奖励数据的信噪比，从而优化政策学习。实验结果表明，PF-PPO在多个基准测试上显著提高了大型语言模型的生成性能，展现了其潜在的广泛应用价值。

Sep, 2024