Apr, 2025

大语言模型推理的简约方法:从拒绝采样到强化学习

TL;DR本文解决了大语言模型(LLM)在复杂推理任务中适应性不足的问题,特别是在现有强化学习方法(如GRPO)的有效性来源尚不明确的情况下。研究提出了一种新的方法——Reinforce-Rej,它通过筛选完全错误和完全正确的样本,显著提高了KL效率和稳定性,为未来基于奖励的LLM后期训练提供了更有效的替代方案。