COLINGApr, 2024

通过自发学习提升语言模型推理能力

TL;DR通过建立自我激励学习框架,根据正确性的内在排序,依据奖励模型训练并通过强化学习优化推理能力,本研究的实验证据表明其方法显著提升了模型的推理能力,在部分数据集中甚至超过了 text-davinci-002 模型。