Jun, 2023

决策 S4:通过状态空间层实现高效基于序列的强化学习

TL;DR本研究提出两种算法:一种通过轨迹实现离线训练,另一种通过一种基于稳定 Actor-Critic 机制的循环训练方法实现在线训练,实验结果证明该方法优于多种变体的决策 Transformer 以及其他基准方法,同时降低了延迟、参数数量和训练时间,更适用于现实世界的 RL。