Feb, 2024

通过轨迹收集和过程奖励合成学习基于规划的推理

TL;DR通过直接优化收集到的经验轨迹,我们提出一个基于规划的推理学习框架,以解决大型语言模型在复杂推理任务中出现的问题,并通过具体的过程奖励排名来提高生成推理过程的可靠性和可信度。