Jun, 2024

每步严密观察!通过迭代的步骤级过程优化学习的LLM Agent

TL;DR采用Monte Carlo方法为Iterative step-level Process Refinement (IPR)框架提供步骤级奖励,通过与专家轨迹进行对比评估,从中识别差异并生成对比动作对,用于训练模型,实验证明该框架在提升效率方面优于其他基线模型。