Jun, 2024
每步严密观察!通过迭代的步骤级过程优化学习的LLM Agent
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process
Refinement
TL;DR采用Monte Carlo方法为Iterative step-level Process Refinement (IPR)框架提供步骤级奖励,通过与专家轨迹进行对比评估,从中识别差异并生成对比动作对,用于训练模型,实验证明该框架在提升效率方面优于其他基线模型。