IJCAIMar, 2019

连续控制深度强化学习的自回归策略

TL;DR本文提出了一种自回归策略,以改善强化学习在连续控制任务中的探索效率,从而产生平稳的探索轨迹以及较高的采样效率。