Apr, 2025
使用单个训练示例的强化学习在大型语言模型中的推理能力
Reinforcement Learning for Reasoning in Large Language Models with One
Training Example
TL;DR本研究解决了大型语言模型在数学推理能力上的不足问题,提出了通过使用单个训练示例进行验证奖励的强化学习方法(1-shot RLVR)。研究表明,该方法有效地提升了模型在多个数学挑战中的表现,尤其是将Qwen2.5-Math-1.5B在MATH500上的准确率从36.0%提升至73.6%,为未来在RLVR数据效率方面的研究提供了新思路。