Oct, 2023
逐步奖励:作为推理导航器的步骤级奖励模型
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning
Qianli Ma, Haotian Zhou, Tingkai Liu, Jianbo Yuan, Pengfei Liu...
TL;DR研究论文探讨了在多步推理中利用反馈机制和搜索机制提高模型推理准确性的效果,提出了一种基于奖励模型的启发式贪婪搜索算法,与其他方法相比在数学推理和代码生成任务中表现出更好的结果,并展示了在推理任务中基于奖励模型的方法的鲁棒性。