BriefGPT.xyz
Ask
alpha
关键词
actor-critic mechanism
搜索结果 - 1
决策 S4:通过状态空间层实现高效基于序列的强化学习
本研究提出两种算法:一种通过轨迹实现离线训练,另一种通过一种基于稳定 Actor-Critic 机制的循环训练方法实现在线训练,实验结果证明该方法优于多种变体的决策 Transformer 以及其他基准方法,同时降低了延迟、参数数量和训练时
→
PDF
a year ago
Prev
Next