Oct, 2024

基于执行反馈和强化学习的代码大语言模型基础研究

TL;DR本研究针对现有大型语言模型在代码合成中的反馈利用不足的问题,提出了一种端到端的强化学习方法,以增强模型对执行反馈的利用。实验结果表明,所提方法在竞争性编程任务中取得了新的最优成果,并显著降低了所需样本量,展示了模型在多步骤中有效利用自动反馈的能力。