Feb, 2024

AutoPRM:通过可控的问题分解自动化多步推理的过程监督

TL;DR本研究提出了一种自监督框架 AutoPRM,通过将复杂问题分解为可管理的子问题,并应用强化学习迭代地改进子问题的求解器,从而显著提高了数学和常识推理任务的性能。