Feb, 2025

STeCa:用于LLM代理学习的步级轨迹校准

TL;DR本研究解决了现有LLM代理在长时间任务中因逐步累积次优动作而偏离正确轨迹的问题。提出的STeCa框架通过步级奖励比较识别次优动作,并利用LLM驱动的反思构建校准轨迹,从而提升代理的决策能力。实验结果表明,STeCa显著优于现有方法,且增强了代理任务完成的稳健性。