Feb, 2025
基于过程监督的强化学习用于代码生成
Process-Supervised Reinforcement Learning for Code Generation
TL;DR本研究解决了现有基于结果监督的强化学习在代码生成中的有效性较低的问题,尤其是在处理多步骤推理任务时受限于高质量过程监督数据构建的资源消耗。我们提出了一种通过教师模型进行逐行代码变异/重构的策略,并利用编译执行结果自动标记每一行,从而生成过程监督数据,最终在PRLCoder框架中整合训练的奖励模型,实验结果表明该方法在复杂代码生成任务中表现优于传统的结果监督方法。