ICMLJan, 2018

软最大熵深度强化学习中的 Stochastic Actor-Critic 算法

TL;DR本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法,该算法通过离策略更新和稳定的随机演员 - 评论家公式结合,实现了在一系列连续控制基准任务上的最先进表现。