ICMLMar, 2020

稳健且平滑的深度强化学习策略

TL;DR提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$,通过引入 smoothness-induced regularization,使学习到的 policy 对连续状态空间的过渡 smooth,提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明,该方法取得了效果的提升。