Apr, 2025

测试时强化学习(TTRL)

TL;DR本研究针对大规模语言模型(LLMs)在没有显式标签的数据上进行推理任务时的奖励估计问题。这项研究提出了测试时强化学习(TTRL),一种新颖的方法,利用未标记数据对LLMs进行强化学习训练,显著提升了模型在多种任务上的性能,特别是在AIME 2024上,Qwen-2.5-Math-7B的通过率提升了约159%。