基于执行反馈和强化学习的代码大语言模型基础研究
CodeRL使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限,同时在APPs和MBPP基准测试中创造了新的SOTA结果。
Jul, 2022
通过反馈机制在 Large Language Models 中引入编译器和参考程序的验证,提高了自动生成代码的正确性和可执行性,实验结果表明 RLCF 提高了 LLMs 在 Java MBJP 和 MathQA 任务中的表现。
May, 2023
使用大型语言模型(LLMs)进行代码生成的研究,引入了一个新的强化学习框架StepCoder,通过将代码生成任务拆分为完成代码片段的课程,以及屏蔽未执行代码段进行模型优化,成功解决了复杂人类需求下RL探索和模型优化的挑战,并通过构建APPs+数据集进行了实验验证。
Feb, 2024
从人类反馈中进行强化学习(RLHF)已成为将LLM输出与人类偏好对齐的一种主要方法。受RLHF成功的启发,我们研究了从反馈中学习(Expert Iteration,Proximal Policy Optimization(PPO),Return-Conditioned RL)对改善LLM推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为LLM提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态,包括有和没有经过监督微调(SFT)数据的情况开始研究。总的来说,我们发现所有算法的性能相当,大多数情况下Expert Iteration的性能最佳。令人惊讶的是,我们发现Expert Iteration的样本复杂度与PPO相似,需要最多约$10^6$个样本从预训练检查点收敛。我们研究了为什么会这样,并得出结论,在RL训练期间,模型未能在SFT模型已经产生的解之外进行显着的探索。此外,我们讨论了SFT训练期间maj@1和pass@96度量性能之间的取舍,并且相反,RL训练同时改善了两者。最后,我们讨论了我们的发现对RLHF和LLM微调中RL的未来角色的影响。
Mar, 2024
通过引入强化学习的方法,将代码LMM的输出与性能对齐,提高生成代码的期望加速比,并在一组基准任务中展示了0.9至1.6倍的串行代码速度提升和1.9至4.5倍的OpenMP代码速度提升。
Apr, 2024
我们提出了一种名为符号反馈强化学习(RLSF)的新型训练/微调范式,旨在增强LLMs的推理能力,并通过使用证明等符号工具来提供精确的奖励信号,从而从传统方法中克服了局限性。
May, 2024
本研究解决了现有的强化学习从人类反馈中(RLHF)在代码生成任务中的奖励模型不准确的问题。通过引入政策过滤(PF-PPO),该方法提高了奖励数据的信噪比,从而优化政策学习。实验结果表明,PF-PPO在多个基准测试上显著提高了大型语言模型的生成性能,展现了其潜在的广泛应用价值。
Sep, 2024