Nov, 2022

连续性情节控制

TL;DR本文提出了一种新型非参数迭代记忆算法 CEC 来解决具有连续动作空间的顺序决策问题,同时在多个稀疏奖励连续控制环境中表现出比最先进的无模型 RL 和记忆扩展 RL 算法更快的学习速度和更好的长期表现。