Feb, 2024

StepCoder: 基于编译器反馈的强化学习提升代码生成

TL;DR使用大型语言模型(LLMs)进行代码生成的研究,引入了一个新的强化学习框架 StepCoder,通过将代码生成任务拆分为完成代码片段的课程,以及屏蔽未执行代码段进行模型优化,成功解决了复杂人类需求下 RL 探索和模型优化的挑战,并通过构建 APPs + 数据集进行了实验验证。