Feb, 2024

通过逆序课程强化学习训练大规模语言模型

TL;DR本研究提出了一种名为R^3的学习推理的逆向课程强化学习方法,该方法仅借助结果监督实现大型语言模型的过程监督的益处。该方法通过学习正确演示,使用逐步课程逐渐滑动推理起始状态,以便在所有阶段更容易地进行模型探索,从而允许结果监督提供逐步信号并准确定位错误。使用Llama2-7B,在八个推理任务上,我们的方法平均超过基于强化学习的基线4.1个点。值得注意的是,在基于程序的推理任务GSM8K上,与不使用任何额外数据的基线相比,Codellama-7B + R^3在三个骨干模型上的表现相当于更大的模型或闭源模型。