Aug, 2023

回顾式大型语言代理人优化的政策梯度的 Retroformer

TL;DR通过学习出具有回顾性模型的基于政策梯度的大型语言代理(language agent),我们的方法在多个环境和任务中学习奖励,以优化代理的性能,并取得了比基准方法更好的结果。