Mar, 2024

ReAct Meets ActRe:用于对比自训练的智能体轨迹的自主标注

TL;DR使用 A$^3$T 框架,通过自主注释代理轨迹,实现了多轮语言代理的自我改进,包括对失败任务的多轨迹执行和对成功和失败轨迹的对比自我训练,取得了显著优于现有技术的性能。