BriefGPT.xyz
Apr, 2025
测试时强化学习(TTRL)
TTRL: Test-Time Reinforcement Learning
HTML
PDF
Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu...
TL;DR
本研究针对大规模语言模型(LLMs)在没有显式标签的数据上进行推理任务时的奖励估计问题。这项研究提出了测试时强化学习(TTRL),一种新颖的方法,利用未标记数据对LLMs进行强化学习训练,显著提升了模型在多种任务上的性能,特别是在AIME 2024上,Qwen-2.5-Math-7B的通过率提升了约159%。
Abstract
This paper investigates
Reinforcement Learning
(RL) on data without explicit labels for reasoning tasks in
Large Language Models
(LLMs). The core challenge of the problem is reward estimation during inference whi
→