ICMLMay, 2023

后见之链中崛起的代理变形机

TL;DR本文利用 “chain of hindsight” 方法在强化学习中训练了一个能够直接综合多个轨迹信息的 transformer 模型,并通过在 D4RL 和 ExoRL 基准测试中的表现证明了它的竞争力和可伸缩性。