Feb, 2025

增强检索过程奖励模型用于可推广的数学推理

TL;DR本研究针对过程奖励模型(PRMs)在处理分布外(OOD)挑战时存在的具体问题进行了探讨,包括推理步骤的OOD和问题的OOD。提出了一种新颖的增强检索过程奖励模型(RetrievalPRM),通过两阶段检索机制提升了PRM的通用性和推理一致性,实验结果表明该模型在多个真实数据集上表现优异,推动了PRM的性能标准。