Feb, 2024
AutoPRM:通过可控的问题分解自动化多步推理的过程监督
AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition
Zhaorun Chen, Zhuokai Zhao, Zhihong Zhu, Ruiqi Zhang, Xiang Li...
TL;DR本研究提出了一种自监督框架 AutoPRM,通过将复杂问题分解为可管理的子问题,并应用强化学习迭代地改进子问题的求解器,从而显著提高了数学和常识推理任务的性能。