Jan, 2018

软最大熵深度强化学习中的Stochastic Actor-Critic算法

TL;DR本文提出一种基于最大熵强化学习框架的深度离策略演员-评论家算法,该算法通过离策略更新和稳定的随机演员-评论家公式结合,实现了在一系列连续控制基准任务上的最先进表现。