Aug, 2023
回顾式大型语言代理人优化的政策梯度的 Retroformer
Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization
Weiran Yao, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng...
TL;DR通过学习出具有回顾性模型的基于政策梯度的大型语言代理(language agent),我们的方法在多个环境和任务中学习奖励,以优化代理的性能,并取得了比基准方法更好的结果。