Mar, 2025

通过元强化微调优化测试时计算

TL;DR本研究针对当前模型在测试时计算的有效利用问题,提出了将其视为元强化学习问题的新方法。通过引入累积遗憾的概念,研究表明可通过最大化稠密奖励来提高测试时的计算效率,进而实现2-3倍的性能提升和1.5倍的令牌效率提升,显著改善了大型语言模型的推理表现。